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PREFATA 


Studiul sistemelor de informare, avînd ca obiect analiza, memo- 
rarea și regdsirea informatiilor, constituie acum wn capitol de bază 
în domeniul nou şi pasionant al aplicațiilor nenumerice ale calcula- 
torului numeric. 

Cu cîțiva ani în urmă a devenit limpede că memoria mare şi 
posibilitățile de prelucrare rapidă ale calculatoarelor electronice nume- 
rice le vecomandă ca singura soluţie pentru realizarea unor sisteme 
de informare, satisfăcătoare, reclamate ca imperios necesare pentru 
utilizarea rațională a stocurilor mari de informaţii. 

Lucrarea studiază procesul de înmagazinare si regăsire a infor- 
maţiilor st căile de elaborare a unor modele functionale care să servească 
la proiectarea acestor sisteme. 

Căutînd să rețină numai rezultatele semnificative într-un do- 
meniu în spectaculoasă evoluție, cartea încearcă să dea o imagine a 
direcțiilor spre care se focalizează acum efortul de cercetare. 

Astfel este prezentată teoria strategiilor de selecție și sînt trecute 
în revistă unele metode de utilizare a memoriei pentru accelerarea 
procesului de regăsire. 

Fără să presupună cunoştinţe de structură a calculatorului sau 
de metode de programare, cartea se adresează tuturor celor interesati 
în matematicile aplicate, dar mai ales celor ce se ocupă de aplicaţiile 
calculatorului, adică analistilor, care au sarcina dificilă de a propune 
modele pe baza cărora să se proiecteze sisteme folosind structurt dis- 
ponibile. 

Încredinţat că lucrarea va fi utilă celor ce au de rezolvat pro- 
bleme de regăsire a informaţiilor, mulțumesc pe această cale Academiei 
Republicii. Socialiste România, care a sprijinit aparitia acesiei cărți. 

C. V. NEGOIŢĂ 
27 octombrie 1969 
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INTRODUCERE 


Această monografie prezintă unele rezultate ale cercetării în 
domeniul sistemelor de informare. 

Teoria sistemelor de informare se încadrează în domeniul mai 
larg al informaticii, care acoperă o mare varietate de topici, cum 
ar fi inteligența artificială şi neurocibernetica, teoria automatelor 
şi a maşinilor secvențiale, programarea automată, teoria deciziilor, 
sistemele de traducere automată, sistemele instruibile, recunoaşterea 
formelor, simularea comportării omului şi aplicarea calculatoarelor 
numerice pentru a rezolva probleme complexe militare, industriale, 
sau administrative. Informatica poate fi privită deci ca ştiinţa 
extinderii intelectului. 

Una dintre cele mai remarcabile activități intelectuale o con- 
stituie comunicarea informaţiei formulată în limbaj natural. 

Informația transmisă prin limbaj natural poate fi folosită 
imediat sau poate fi destinată unei păstrări îndelungate. În ultimul 
caz, mijlocul principal de transmitere este indirect, static, prin 
documente scrise. 

Pentru a fi transmise, informaţiile sînt fixate pe documente 
scrise fără să se ştie dacă, unde şi de către cine vor fi cerute. La 
rîndul lor, utilizatorii nu ştiu dacă, unde şi de către cine s-au scris 
documentele de care au nevoie. 

Utilizatorii documentelor sînt separați de autorii lor prin 
spaţiu, timp și limbă şide aceea transferul informaţiei se face cu 
intirziere. 

_ _ Este ştiut că, pentru a fi consultate, documentele sînt depo- 
zitate in colecţii. Dacă colecţia este sistematizată, atunci avem de a 
face cu o bibliotecă. 

Accesul la informaţia stocată în bibliotecă a devenit din ce 
în ce mai greu pe măsură ce colecţia şi-a mărit volumul. După cel 
de-al doilea război mondial, numărul publicaţiilor a crescut în mod 
exploziv, astfel încît bibliotecile îşi dublează volumul într-un interval 
de 10 ani, tinzind să devină agenţii din ce în ce mai ineficiente pentru 
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transferul informaţiilor. Se pare că numărul total de cărți, opuscule, 
ziare etc. existente în toate bibliotecile din lume se ridică la peste 
80 de milioane de titluri. Acest număr este în creștere în fiecare an 
cu mai mult de 3%. În fiecare minut în lume se editează circa 2 000 
de pagini de tipar. 

Problema principală a exploatării bibliotecilor este căutarea 
şi extragerea din depozite. Pentru această căutare se pierde o can- 
titate colosală de timp și de muncă. Se întîmplă ca uneori să fie 
mai simplu să se efectueze o cercetare din nou, decit să se caute 
rezultatele unor cercetări similare în literatură. 

În mod firesc a apărut necesitatea revizuirii metodelor de 
informare. 

Progresele ultimei decade în domeniul prelucrării datelor si 
a copierii documentelor au condus la speranţa că se poate mecaniza 
şi procesul de informare. 

Așa cum omul poate determina sensurile cuvintelor şi propo- 
zitiilor pentru a putea face raționamente despre similitudinea sensu- 
rilor, redundanta, inconsistenta sau pertinentă, un sistem de infor- 
mare poate face diferite operaţii asupra limbajului natural, cum ar 
îi analiza pentru detectarea şi eliminarea informaţiei redundante, 
selecţia automată a informaţiei pertinente, verificarea automată 
a consistentei informaţiei. Aceste sisteme prelucrează limbajul 
natural pe baza intelesului. 

Cu cîţiva ani în urmă a devenit limpede că memoria mare si 
posibilitatea de prelucrare rapidă a calculatoarelor electronice nu- 


merice le recomandă ca singura soluţie pentru realizarea unor sisteme 
de informare satisfăcătoare. 


Prin sistem de informare înţelegem un ansamblu de procedee 
pentru înregistrarea şi selecţia informaţiilor. Ca urmare a actului de 
selecție un sistem de informare poate furniza direct informaţii sau 
poate furniza documente purtătoare de informaţii. În primul caz 
este vorba de sisteme care răspund la întrebări, iar în al doilea, de 
sisteme de regăsire a documentelor. 

În cele ce urmează se va vorbi numai de sisteme de regăsire 
a documentelor. 

Aceste sisteme înmagazinează documente şi, ca răspuns la 


cereri de selecţie, furnizează la ieşire adresele, rezumatele sau textul 
integral al documentelor, 


Pentru a se putea face această operaţie, documentele nu sînt 
inmagazinate în formă originală, ci, ca urmare a unei analize, ele 


rs Pe pie: 
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sînt reprezentate prin termeni caracteristici pe care in continuare 
îi vom numi descriptori. 

Astfel, un document este reprezentat in sistem printr-o inre- 
gistrare, care reprezintă suma descriptorilor săi gi fiecărui sistem îi 
corespunde mulţimea descriptorilor folosiți pentru a reprezenta 
mulțimea documentelor. 

Prin înregistrarea informaţiilor înțelegem deci operația care 
constă în transcrierea descriptorilor într-o memorie. 

Căutarea informaţiilor înseamnă consultarea descriptorilor fie- 
cărei înregistrări, pentru a selectiona pe acelea ce sînt apropiate de 
o submulțime dată a descriptorilor, numită cerere de selecţie. 


În general se cere să se selectioneze documente care in afara 
unor complicate combinaţii de descriptori trebuie să satisfacă şi 
unele restricţii. De exemplu, se poate cere ca sistemul să furnizeze 
o listă de articole care tratează despre „influenţa microstructurii 
asupra temperaturii de tranziţie a superconductorilor intermetalici‘‘ 
cu restricţiile : toţi autorii cu excepţia acelora care lucrează in tara X, 
nimic înainte de anul 1962, nimic în japoneză, nimic din revista X, 
nu mai mult de 100 articole. 


* 


Problema cea mai importantă şi cea mai dificilă într-un sistem 
de informare este cea a caracterizării documentelor, adică fixarea 
descriptorilor. Indexarea se poate face automat *) prin citeva metode 
de analiză a conţinutului cu grad de complexitate diferit. La baza 
acestor metode stă fie un criteriu statistic, fie un criteriu sintactic. 
În primul caz descriptorii sînt reprezentați de cuvintele cu anumită 
frecvenţă de apariţie si folosind dicţionare de interdicţie pentru a 
elimina, cuvintele uzuale. În al doilea caz, din text sînt selecţionate 
propoziţii referentiale ale căror predicate determină gradul de co- 
nexiune al unui descriptor la un document. 


O a doua problemă importantă a sistemelor de informare o 
constituie strategiile de selecţie, adică metodele de depistare a înre= 
gistrărilor al căror conţinut este apropiat de cel al cererii de selecţie. 

Valoarea datelor păstrate în memoria sistemului depinde în 
mare măsură de rapiditatea cu care pot fi folosite. O a treia problemă 
care apare în proiectarea unui sistem de informare o constituie deci 


*) Astăzi in unele reviste științifice, imediat după titlul unui articol este prezentat 
un șir de descriptori fixati de autor, care-i caracterizează conținutul. 
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organizarea stocului de înregistrări pentru ca timpul de răspuns 
să fie mic. 

Din cele arătate mai sus rezultă că în sistemele de informare 
se pot separa trei procese distincte : un proces de analiză (indexare), 
un proces de organizare a colecţiei şi un proces de confruntare a 
unei cereri de selecţie cu colecţia înmagazinată, : 

În legătură cu sistemele de înmagazinare gi regăsire a informa- 
țiilor, a apărut un corp crescind de cunoștințe empirice gi teoretice. 


În această lucrare s-a efectuat mai ales un studiu al sistemelor 
de selecţie, şi al metodelor de organizare a colecţiilor de documente 
într-o încercare de a organiza într-un cadru logic unele rezultate 
ale cercetărilor efectuate în ultimii ani. Colectarea rezultatelor 
semnificative într-un domeniu nou, în plină dezvoltare, implică 
un anumit rise datorită probabilității de a trece cu vederea unele 
aspecte, însă se justifică prin necesitatea existenţei unui cadru 
general în care să se poată evalua sistemele. 

Prezenta lucrare este izvorîtă din punctul de vedere obișnuit 
al inginerului, care ar dori să aibă la dispoziţie mijloace de proiectare. 

În orice ştiinţă, cele două utilizări importante ale matematicii 
sint formularea şi soluţionarea problemelor, pentru formulare fiind 
folosite modele. Noţiunea de model este aplicată in matematicile 
pure cînd se consideră un sistem formal, iar în matematicile aplicate. 
cînd se consideră mărimi fizice, statice dacă natura lor este inde- 
pendentă de timp sau dinamice în caz contrar. Definind o structură. 
ca o mulțime de mărimi statice şi un proces ca o mulțime de mărimi 
dinamice, vom privi un sistem ca un proces. Construind un mode? 
se realizează un cadru general în care pot fi descrise toate sistemele: 
existente su se poate dezvolta un sistem mai generalizat. Poziţia, 
aceasta este cu totul deosebită de cea din fizică. În fizică există, 
procese bine definite care pot fi descrise de modele. Unele rezultate. 
ale procesului pot fi calculate cu ajutorul modelului şi măsurate 
independent pe cale experimentală. Dacă cele două rezultate concordă, 
modelul este considerat valid. În domeniul informării nu există 
un astfel de sistem bine definit, ci, dimpotrivă, un sistem trebuie 
construit după un model. În acest caz trebuie găsit un model încît 
un sistem de informare proiectat conform acestui model să îndepli- 
nească cit mai bine cerinţele impuse anterior. 

Toate încercările de a elabora modele ale sistemelor de intor- 
mare s-au lovit de noţiunea de relevanță, În general prin relevanță 
se înțelege asemănarea dintre o înregistrare şi o cerere de selecţie. 
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Măsurarea în termeni cantitativi a acestei asemănări fiind dificilă, 
pind nu de mult s-au considerat ca relevante toate documentele care 
cuprind integral descriptorii cererii. Astfel,procesul de selecţie 
însemna o separare a înregistrărilor relevante de cele nerelevante. 

În această lucrare se abordează altfel această problemă. 

Procesul de selecție înseamnă aici ordonarea întregii colecţii 
de înregistrări cu ajutorul unei funcţii de mulțime numită funcție 
de selecţie. Răspunsul sistemului nu mai este privit ca o dihotomie, 
ci ca graficul funcţiei de selecţie. 

Fără să se piardă generalitatea în întreaga lucrare „sînt tratate 
numai funcţii de selecţie cu valori în intervalul [0, 1], cu toate că 
se pot construi funcţii de selecţie cu valori în toată dreapta reală 
sau în orice spaţiu normat. 

Definind strategia de selecţie ca cuplul format din cererea de 
selecţie si funcţia de selecţie, introducînd conceptul de răspuns 
comandat și aplicînd criteriul de evaluare a eficienței unei funcții 
de decizie folosit în teoria sistemelor instruibile, se demonstrează 
că o strategie de selecţie este cu atît mai eficientă, cu cit funcția 
de selecţie are mai mulţi termeni. Pornind de la această constatare, 
în lucrare sînt introduse noi strategii cu funcţii pătratice, demon- 
strînd că procesul de indexare poate fi privit ca un proces stohastie 
în care descriptorii sînt variabile aleatoare. 

Impunind ca o funcţie de selecţie să fie o restricție a unei 
măsuri exterioare, se pot construi funcţii de selecţie aditive. În 
acest caz prin procesul de selecţie se poate realiza o repartiție de 
probabilitati. 

Lucrarea are următoarea organizare : 

În capitolul 1 se prezintă unele rezultate generale ale teoriei 
indexării documentelor, care conduc la reprezentarea vectorială a 
înregistrărilor şi la noţiunea de matrice de fixare, ale cărei elemente 
xeprezintă valorile conexiunii descriptorilor la documente. 
s3 În capitolul 2 este prezentată o teorie a strategiilor de selecție 
bazată pe noțiunea de funcţie de selecție, funcţie ce introduce o 
relație de ordine nestrictă pe mulțimea înregistrărilor. Se dau două 
metode de evaluare a echivalentei strategiilor de selecție, una bazată 
pe rangul introdus prin ordonare de funcţia de selecţie şi cealaltă 
pe măsura unor submultimi care constituie răspunsul comandat 
al sistemului. | 

~ O cerere de selecţie, liniară, nu presupune existenţa unei 
relaţii între descriptori, astfel încât formularea unei cereri cu deserip- 
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torii aeronavă” şi ,productie” nu permite selectarea, unei înre- 
gistrări cu descriptorii „avion” şi ,,fabricatie”. Pentru eliminarea, 
acestui inconvenient există trei metode: : introducerea în sistem 
a unui dicționar de sinonime, structurarea, cererii de selecție sau 
selecţia asociativă. În capitolul 2 sînt analizate cererile structurate, 
iar în capitolul 3 se prezintă o teorie a selecției prin asociere bazată 
pe matricea de similitudine între descriptorii sistemului, considerind 
că similitudinea poate fi caracterizată de coaparitia descriptorilor. 


Capitolul 4 tratează problema organizării colecţiei pornind 
de la caracteristica principală a unui sistem de selecție și anume 
faptul că sistemul trebuie să furnizeze adresele înregistrărilor în 
funcție de conţinutul lor şi nu invers, ca în cazul sistemelor de pre- 
lucrare a datelor. De aceea pentru colecţiile mari de documente siste- 
mele cu căutare secvenţială se dovedesc nesatisfăcătoare şi se preferă 
sistemele cu organizare în listă, sistemele cu organizare în dicționar, 
sistemele cu memorii asociative şi sistemele cu clasificare automata. 


Capitolul 5 se ocupă de sisteme cu clasificare automată. Un 
prim procedeu de clasificare este bazat pe matricea de similitudine 
între înregistrări. Acest procedeu, pentru a fi aplicabil practic, trebuie 
să pornească de la nuclee iniţiale cît mai apropiate de grupările 
finale. În lucrare este prezentată o metodă, bazată pe vectorii proprii 
ai matricei de similitudine, pentru găsirea unor nuclee iniţiale optime. 
Un alt procedeu de clasificare automată se bazează pe transformarea 
grafului, determinat de matricea de similitudine, într-o reţea uni- 
dimensională, prin a cărei reorganizare se obţin grupări suprapuse. 
O a treia metodă de clasificare se bazează pe proprietatea matricelor 
instruibile de a fi sensibile la distanța dintre înregistrări prototip 
şi înregistrări cu care au fost instruite. 

În final este analizată o metodă de clasificare bazată pe funcţii 
de apartenenţă, fiecare grupare fiind considerată ca o mulțime fuzzy.. 
Construcţia funcțiilor de apartenență porneşte de la o matrice ale 
cărei elemente sînt probabilitățile descriptorilor de a apartine unei 
anumite grupări. Această matrice se poate obţine fie printr-o metodă 
de instruire plecînd de la egantioane date pentru fiecare grupare, 
fie prin metoda analizei claselor latente, considerind întreaga colecție. 
Sint analizate astfel cîteva, funcţii de apartenenţă care au proprie- 
tatea de a conduce la grupări convexe. Pentru a determina gradul 
de separare a două grupări se aplică teorema lui Zadeh de separare 
a mulțimilor fuzzy convexe. 
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Capitolul se încheie cu o scurtă analiză a sistemelor 
interactive. 

La sfirsitul fiecărui capitol se fac observatii pe marginea mate- 
rialelor folosite la elaborarea lucrării. 

Terminologia şi notatiile folosite în lucrare urmează in general 
pe cele folosite în literatură, cu toate că, fiind vorba de noţiuni şi 
teorii toarte noi, nu s-a impus încă un mod de a le desemna, 

Deși lucrarea se ocupă numai de sisteme de înmagazinare. şi 
regăsire a documentelor, ea este suficient de generală pentru ca să 
poată fi aplicată si la alte sisteme de informare. Astfel de sisteme 
sint, de exemplu, cele încercate acum pentru diagnosticul medical. 
În general, atunci cînd pune un diagnostic, un medic notează simp- 
tomele pacientului gi le compară cu simptomele asociate diverselor 
maladii. Ca urmare a acestei comparații, medicul selectează una 
sau mai multe maladii care explică; comportarea pacientului. Acest 
procedeu poate conduce la un diagnostic fals, deoarece procesul de 
comparare, care stă la baza stabilirii diagnosticului, depinde de 
memoria medicului, fie cînd selectează simptomele pacientului, fie 
cînd consideră toate maladiile caracterizate de acele simptome. 
Dacă într-un sistem automat simptomele unor maladii sînt consi- 
derate ca descriptorii unor înregistrări, teoria selecţiei expusă în 
această lucrare se aplică fără corecții esenţiale. 


2 mo, 463 


INMAGAZINAREA 
DOCUMENTELOR 


Majoritatea modelelor pentru sistemele de înmagazinare. gi 
regăsire a informaţiilor sînt bazate pe teoria mulțimilor, pornind 
de la constatarea că procesul de regăsire presupune mulțimi de 
obiecte : pe de o parte mulțimi de descriptori şi pe de altă parte 
mulțimi de documente. De fapt datele fundamentale ale teoriei 
acestor sisteme sînt furnizate de relaţiile ce există între cele două 
mulţimi. 

Modelul particular care convine: unei anumite situaţii date 
depinde însă de multi factori dintre care cei mai importanţi sînt 
următorii : 

— colecţiile de obiecte pot fi statice în sensul că pentru fiecare 
mulțime de obiecte există un complement bine definit sau din contră 
colecţiile se pot schimba in timp; 

— spaţiul cererilor de selecţie poate fi identic cu spaţiul înre- 
gistrărilor, astfel ca cererile sînt formulate cu aceiaşi descriptori 
folosiți pentru identificarea documentelor, sau din contra formularea, 
cererilor poate să nu urmeze aceleaşi restricţii aplicabile identificări 
documentelor ; 

— între descriptorii documentelor şi cei ai cererilor pot fi 
definite relaţii sau dimpotrivă fiecare descriptor poate fi independent 
de oricare alt descriptor. ; 

În cele ce urmează, dacă nu se specifică altfel, se consideră 
colecții statice, o singură mulțime de descriptori si descriptori inde- 
pendenti. Se va arăta însă că pornind de la aceste criterii se poate 
elabora un model cu care să se poată interpreta şi sisteme ce seabat 
de la condiţiile impuse mai sus. 


1.1. PROCESUL DE INDEXARE 


Fie T mulţimea documentelor, D mulţimea deseriptorilor, 
mulțimea valorilor de conexiune a descriptorilor la documente, 


20 SISTEMS DE ÎNMAGAZINARE SI REGĂSIRE A INFORMAȚIILOR 


S mulţimea intensităţilor de similitudine a descriptorilor. Cu ajutor ul 
acestor mulțimi se pot construi propoziţii primitive de forma 


dt) =v de D, te T, ve V, 


adică în limbaj neformal descriptorul d este atașat documentului t 
cu valoarea v. 

Numim proces de indexare procesul stabilirii propozitiilor 
primitive. 

Cu ajutorul propozitiilor primitive se pot construi următoarele 


propoziţii de tip conjunctiv sau disjunctiv care se referă la atașarea, 
descriptorilor la documente : 


Con [d, (î) = o, d,(t) = v] = Sy 


adică în limbaj neformal descriptorii d, si d, ce apar in documentul t 
cu valori v, şi v, sînt similari cu intensitatea de similitudine s, ; 


Dis [d, (2) = Vy d,(t) = v], 


adică în limbaj neformal la documentul ¢ este fixat fie descriptorul 
d,, fie descriptorul d,. 


Metodele de indexare pot fi clasificate atît după modul de de- 
finire al propozitiilor de tip conjunctiv, cit si după modul de alegere 
al mulțimilor V si S. Dacă intensitatea de similitudine a descripto- 
rilor poate fi dedusă din coaparitia lor, atunci indexarea se numeşte 
fără indicatori de legătură. În acest caz numai propoziţiile primitive 
pot fi axiome. 


1.2. CRITERII DE INDEXARE AUTOMATĂ 


1.2.1. Criteriul statistice 


Fie mulţimea D = {d,, d,,...,d,}. Un document è poate fi 


reprezentat ca o reuniune a mulțimilor disjuncte {d} pe care le 
notăm A, 


t= A, 


i=l 


ul 


Ha | 
lor 


ele 
ea, 
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Mulțimea ¢ este evident un trib deoarece 
dacă A,et, atunci A, — A, el; 
dacă (A,) este un șir de mulţimi ale lui t, atunci reuniunea 


p 

WU A, a șirului aparține lui t; 

nel 

cel putin una din multimile A, este vida. > 
Fie u o măsură scalară reală pozitivă pe tribul t, adică o aplicaţie 
aditivă de mulțimi a tribului ¢ în dreapta reală, 


wit > R. 


Atunci 


Pp p 

p (ù 4.) i u (A, 
n=1 n=1 

oricare ar fi pe R, şi oricare ar fi şirul (A,) de mulțimi disjuncte 

ale tribului î, ceea ce implică u(0)=0. 

Conform criteriului statistic, valoarea conexiunii dintre un 
descriptor d, şi un document t este valoarea măsurii mulțimii A, ata- 
sata descriptorului d, . 

Un exemplu de măsură este numărul cardinal care satisface 
condiția 


card (UA,) = X card A, 
sau probabilitatea cre satisface condiţiile 


(UA) = Sm(A,), 


z(t) =1. 
Funcţia m poate fi 
A 
z(A,) = oS E; 
card |J A, 


I i=l 


1.2.2. Criteriul sintactic 


Criteriul sintactic impune identificarea expresiilor care ocupă 
o poziţie referenţială în propoziţiile documentului. Acest criteriu 
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este aplicabil numai acelor propoziţii în care este posibil să se izoleze 
cuvinte (sau grupuride cuvinte) ce apar în poziţii identificabile. 
Astfel de propoziţii se numesc propoziţii cu formă canonică. Din 
punct de vedere logic, cea mai importantă proprietate a unei pro- 
poziţii cu formă canonică este că are structură de relaţie. În acest 
caz problema reprezentării unui document se reduce la problema 
logică a identificării acelor cuvinte ce reprezintă argumentele predi- 
catelor în propoziţii cu formă canonică. 

Fie un predicat ireflexiv P(d,, d, ...,d,) cu k argumente. 
Fiecărui argument d, i se asociază o mulțime finită D, . Prin ipoteză 


card D, = k pentru toţi h. 


Fiindcă P este un predicat ireflexiv, toate argumentele sale sint 
diferite. Deci pentru toți i, j distincti D, D, . Deoarece P stabileşte 
același grad de conexiune pentru fiecare pereche distinctă a argumen- 
telor sale, distanța minimă între două mulțimi trebuie să fie aceeaşi 


pentru fiecare pereche. Folosind ca distanță numărul cardinal al 
diferenței simetrice, 


3(D, , D,) = card (D, F D,), 


se observă că această distanță este minimă cînd card (D, + D,) = 2. 
Tinind seama de identitățile 


card (D, U D,) + card (D, N D,) = card D, + card D,, 
card (D, U D,) — card (D, N D,) = card (D, + D,), 
se poate scrie 
card (D, N D) =k —1. 
Fiindcă există 0, intersecții distincte a k mulțimi luate cîte h şi 
numärul cardinal al fiecărei intersecții este k — 1, 
card (D, U D, U... U D,) = Ok card D, — CZ card (D, N D,) + 
+ Ozcard(D, N D, N D,) — ... + O card(D, N Da N... N D,) = 
= k? — (k —1)? = 2k — 1. 
Deci conexiunea dintre un descriptor si un predicat este măsurată 


de numărul cardinal al unei mulțimi finite astfel ca numărul cardinal 
al reuniunii tuturor mulțimilor să fie 24—1, în timp ce numărul car- 
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dinal al intersecţiei oricăror două mulțimi este k — 1. Cu alte cuvinte, 
valoarea conexiunii unui decriptor la un predicat este % dacă pre- 
dicatul are k locuri. Valoarea conexiunii unui descriptor d, la un 
document este suma tuturor valorilor de conexiune dintre d, şi 
predicatele documentului care contin pe d, ca argument. 


1.3. ÎNREGISTRAREA DOCUMENTELOR 


1.3.1. Vectorul înregistrare 


În urma procesului de indexare se obţine o familie (A,) C 
Cc P(T) de parti disjuncte două cîte două a căror reuniune este T, 


A, = {t| d(t) =. 


Deoarece (A,) este o partitie a mulțimii 7 și v, sînt numere reale, 
funcţia d definită pentru orice te T prin egalitatea 


este o variabilă aleatoare, 
d:T >V, VCR. 
Considerăm n variabile aleatoare dy, d,,..., d, si aplicația 


t > (d,(t), da(t),. - -, d, (t)) 
a lui t în R”. Atunci în spaţiul n-dimensional fiecare document 
te T este definit de vectorul 

e = (d, (x)| k =1,..., n}, 


unde d, (v) = d,(t), pe care il vom numi vector înregistrare sau 
simplu înregistrare. Coordonatele vectorului corespund descripto- 
rilor fixati prin axiome şi valoarea fiecărei coordonate corespunde 
unui element al mulțimii V. 


Înregistrarea 2 este o submulțime a mulțimii D, deoarece 


d, (x) = 0 > dEV, 


d, (£) =1 > d,E%. 
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1.3.2. Matricea de fixare 


Mulțimea X a vectorilor # formează o matrice F numită 
matrice de fixare: 


dila) dala). + + d,(%) 
p = |G(2) ay (Wy). . da (22) |, 
d, (Ta) do (m). oze d, (@_) 


Coloanele matricei corespund descriptorilor sistemului, iar liniile 
matricei corespund inregistrarilor sistemului. Matricea se mai poate 
scrie 


Une Val o 
F=|%2 Va - e + Ve 
Un by toh 0 Oh 


unde v, este valoarea descriptorului d, pentru o înregistrare 2, . 
Matricea de fixare devine o matrice booleană dacă V = (0,1). 


acest caz 
v, = 0 dacă înregistrarea x, nu are descriptorul d, ; 
v, = 1 dacă înregistrarea w, are descriptorul d, . 


Matricea, de fixare devine o matrice stohastică dacă elementele v, au 
fost determinate ca valori ale funcţiei x din § 1.2.1 


1.4. OBSERVAŢII BIBLIOGRAFICE 


Cel mai cuprinzător studiu al problemelor indexării automate 
a fost făcut de Stevens [181], care a folosit o bibliografie cu peste 
650 lucrări. La baza criteriului statistic stau lucrările lui Luhn 
[89], [90], care la IBM a făcut primele încercări de indexare auto- 
mată. Aceste încercări s-au bazat pe presupunerea că cu cît apare 
mai des un cuvînt într-un document, cu atit mai probabil este ca 
acel cuvînt să fie un indicator semnificativ al subiectului acelui docu- 
ment. Există acum programe de numărare a cuvintelor într-un 
text astfel încît un calculator poate furniza o listă a tuturor cuvintelor 
din text aranjate în ordinea frecvenței de apariție. Cuvintele functio- 


ire 


ile 
ate 


au 


ÎNMAGAZINAREA DOCUMENTELOR 25 


nale ca articolele, conjunctiile, prepozitiile ete. sînt excluse folosind 
un dicţionar de interdicţie. În funcţie de gradul de indexare dorit, 
cuvintele care au aceeaşi rădăcină pot fi numărate ca repetiţii ale 
rădăcinii fixe sau separat. Prelucrarea statistică a textului furni- 
zează deci o listă de cuvinte aranjate după frecventa de apariţie. 
Din această lista, specificind o valoare minimă a frecvenţei, sînt 
selectaţi automat descriptorii. 


O'Connor [131] a studiat problema frecvenței minime de 
selecţie. Se crede acum că pentru a face eficace indexarea automată 
este necesar să se limiteze numărul descriptorilor eliminind aşa- 
numiții termeni nedescriptivi. 


Cleverdon [23], de exemplu, este de părere că indexarea este 
bună selectind toate cuvintele care apar in document mai mult de 
şase ori. 


Edmunson și Wyllys [39] au împrumutat un principiu din teoria 
informaţiei care sugera că semnificația unui cuvînt ar putea fi o 
funcţie de raritate mai de grabă decît de frecvenţa de apariţie. 
Ei au propus ca fiecărui cuvînt să i se calculeze un factor de semni- 
ficatie f — r sau f/r, unde f înseamnă frecvenţa de apariţie a cuvin- 
tului în document, iar r frecvenţa de folosire în general. Astfel un 
cuvînt folosit rar pentru scopuri ordinare care apare des într-un 
document va avea un factor de semnificaţie mare pentru acel docu- 
ment în timp ce cuvintele normal rare folosite rar în document 
şi cuvintele comune folosite des vor primi valori mici. 

Maron [97] şi Lévery [86] au folosit doi parametri statistici 
pentru selecția descriptorilor : frecvenţa unui cuvînt şi caracteristi- 
cile sale în diferite texte. 

Kravet, Moscovici şi Senderov [76] de la Institutul central 
de cercetări pentru informarea din brevete din Moscova lucrează 
cu o metodă de indexare bazată pe măsurarea deviatiei frecvenţei 
cuvîntului de la frecvenţa medie teoretică. Mărimea acestei deviații 
dă valoarea de informare a descriptorului. Există un număr de 
cuvinte caracteristice la fiecare text şi frecvenţa acestor cuvinte 
deviază deobicei de la frecvenţa normală în limbă. Astfel cuvîntul 
CAP este folosit mai frecvent decît cuvîntul DINTE, însă în textele 
de stomatologie proporitia este inversată. 

Simmons și MeConlogue [171] au arătat că pentru sistemele 
cu răspuns la întrebări este indicată indexarea maximă, eliminînd 
numai un număr minim de cuvinte funcţionale. 
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Climenson, Hardwick şi Jacobson [24] consideră că pentru 
selectarea descriptorilor criteriul statistic nu este suficient şi că 
indexarea trebuie să se bazeze pe recunoaşterea şi manipularea 
structurii sintactice a textului. 

Baxendale [11], [12] a elaborat primul program pentru ana- 
liza sintactică. Criteriul sintactie din § 1.2.2 se datoreşte lui Hillman 
[63], care a folosit teoria simplicitatii elaborată de Goodman [54]. 
Acest criteriu stă la baza sistemului automat de indexare au textelor 
elaborat de Hillman şi Reed [65] la Lehigh University. Acest sistem 
este bazat pe o gramatică sensibilă la context şi un dicţionar cu 
trei sute de cuvinte-functor şi sufixe. Fiecărui cuvînt dintr-un text 
i se fixează o categorie sintactică şi i se identifică frazele referentiale 
care se segmentează în propoziţii simple din punct de vedere sintactic. 
Această etapă este numită microcategorizare. În următoarea etapă, 
numită macrocategorizare, predicatele sînt izolate şi se fixează valori 
argumentelor. Kasarda [70] a raportat în 1967 primele rezultate 
experimentale cu sistemul de la Lehigh University. 

O teorie a limbajelor de indexare bazate pe predicate a fost 

Schitat&é de Sanders [166]. 


STRATEGII 
DE SELECTIE 


Numim sistem de regăsire un sistem (X, D, V, S, y) compus 
din patru mulţimi nevide gi o funcţie definită pe aceste mulțimi. 
Mulțimea X se numește mulțimea înregistrărilor din sistem, mul- 
timea D se numește mulțimea descriptorilor sistemului, mulțimea V 
se numește mulțimea valorilor descriptorilor, mulțimea S se numește 
mulţimea intensitatilor de similitudine a descriptorilor, iar funcția y 
se numeşte funcţia de selecție a sistemului. 

Sistemele de regăsire pot fi clasificate după modul de alegere al 
mulțimilor D, V şi S. Dacă intensitatea de similitudine a descrip- 
torilor poate fi dedusă din coaparitia lor, atunci sistemul se numeşte 
fără indicatori de legătură. Acesta este cazul sistemelor automate 
şi de aceea în cele ce urmează vom vorbi numai de sisteme fără 
indicatori de legătură la care mulțimea S se deduce automat din 
celelalte mulțimi ale sistemului. 


2.1. FUNCŢIA DE SELECȚIE 


Funcţia de selecţie a sistemului stabilește o aplicaţie y a mul- 
timii X pe dreapta reală R, 


y:X > kh, 


adică o corespondență prin care fiecărui element «e Xi se asociază 
un element y(z)e R. Corespondenta s > y(x) este reprezentată prin 
perechi ordonate (a, y(#)). ` 

Numim răspuns al sistemului de selecţie graficul funcţiei, 
adică mulțimea, 


{(@, y (2))| we X}. 


PJ 
wo 
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Fie r = card X şi J = {1,2,...,7} o mulţime densă de intregi. O 
funcție de selecție y induce pe mulţimea X o ordonare, adică o 
aplicație 


E:sX oT, 


Aplicatia č este un epimorfism numai dacă funcţia y induce o ordo- 
nare totală pe mulţimea X. 


2.2. FUNCŢIA DE SELECŢIE CA RESTRICTIE 
A MĂSURII EXTERIOARE 


Considerăm mulțimea D si mulțimea P(D) a tuturor sub- 
mulțimilor mulțimii D. Mulțimea P(D) este un trib deoarece are 
proprietățile 

Ae P(D), Be P(D) >A — Be F(D), 
(4,)e PD) > U 4,eP(D), 
DeP(D), 
Oe P(D). . 


Măsura exterioară u* : P(D) > R este o funcţie reală, definită 
pe P(D) cu următoarele proprietăţi : 


u*(0) = 0; 


u* este numerabil subaditivă, adică pentru orice şir (A,) 
de mulţimi din P(D) disjuncte sau nu avem 


u*(U Ay) < È p*(A,); 


u* este monotonă, adică dacă A e P(D), Be P(D) şi AC B, 
atunci p*(A) < p*(B). 


Deoarece X C P(D), atunci dacă 


aeX + p*(v) = y(a), 


funcţia y este restrictia lui u 
că o funcţie dată u* are o 


* la X. Din implicatia de mai sus rezultă 
singură restricţie la mulțimea X dată. 


oO 


D~ 


b- 
re 


B, 
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2.3. FUNCŢIA DE SELECŢIE 
CA FUNCŢIE ETAJATĂ 


Aplicația y: X > R este etajată pe P(X), deoarece este o 
aplicaţie simplă, adică are un număr finit de valori 9, 72: -y Vas 
g<7, mulțimile 

X, = (oly) =v k&=1,2,...,9 
aparțin familiei P(X) care este un trib. 
Considerăm funcția caracteristică a mulțimii X,, adică aplicația 
definită pentru fiecare element « € X astfel : 
1 dacă ve X, 
Xx,(@) = (0 dacă ve X,. 


Deoarece y este o funcție finită etajată pe P(X), ea se poate scrie 
sub forma 


g 
y= ¥ Duke 
kel 


Multimea aplicatiilor etajate pe P(X) formează un spațiu vectorial 
pe corpul numerelor reale. Fie T această mulțime ye F, yee Tl 
şi ceR. Atunci 


cyce, 


Yı + YET. 


2.4, CONSTRUCŢIA 
FUNCŢIEI DE SELECȚIE 


Pentru o înregistrare 


a = {d,() |b =1,...,%}; 
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funcţia y ia valoarea 
yla) = yd (L), Cis Coye +4 Cr) 


unde ¢,,...,¢, sînt parametrii funcţiei. 
O funcţie de selecţie poate fi scrisă sub forma 


h 
TA DC Yis 


i=1 


unde y, sînt funcţii reale uniforme liniar independente. 
Spunem că y este o funcție liniară dacă 


V,(2) = (2), — iss og Pe 


Evident, o funcţie liniară are n componente. 
Spunem că y este o funcţie polinomială de ordinul r dacă 


p(x) este de forma d;3(a) dls) ... d(x), unde ky, kao... În = 
= 1. 3% Și a, d,..., 4, = 0 și.1l. 


O astfel de funcţie are h = Y Oni-a componente. Dacă r=2 
i=1 


spunem ca y este o funcţie pătratică. 
O functie pătratică are forma 


va) = J én Go) +B E en Alo) aa) + È auto). 
k k=1j 1 k=1 


k=1 =k+ 


Această functie are 


n termeni d2(%), 
n termeni d,(2), 


n(n — 1)]2 termeni a(x) a,x), 
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Funcţia poate fi pusă într-o formă matricială folosind notatiile 
A= (t;s) 


AQ = 0y, J =1,...,2, 


1 : ‘ 
Ci a Om A ESRT a EST 


În acet caz 


y(£) = a Aw + vB. 


| | 2.5. STRATEGIA DE SELECȚIE 


că 

| Specificarea parametrilor ¢ ai funcţiei de selecţie înseamnă 
ae | specificarea unei submultimi qe D pe care o vom numi cerere de 

| selecţie. 

| Numim proces de formulare a cererii de selecție procesul sta- 
9 | bilirii propozitiilor de forma 


d(q) =v, deD, veV. 


Ca şi în cazul unei înregistrări, o cerere de selecţie poate fi 
| reprezentată de un vector 
| q = {d,(q)| k =1,.--, n} 


Numim strategie de selecție cuplul o = (9, y). Ă 
Precizarea unei strategii de selecţie înseamnă precizarea unei 
funcţii de selecţie y, astfel ca 


| Ye(2) = (2 4). 


| Fie Q mulțimea cererilor de selecţie. Vom spune că o familie de 
| aplicaţii y: X > R, qeQ, este parametrizată de mulțimea Q dacă 
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aplicaţia y: X x Q > R, definită de 


y(@, q) = Ya), we X, de, 
este continuă. 


2.5.1. Strategii cu funcţii aditive 
Vom considera un clan de parti ale mulțimii D, generat de 
mulțimea X, adică o clasă nevidă € de părți ale mulțimii D dacă 
A — Bec oricare ar fi A, Bec, 
A U Bee oricare ar fi A, Bec 
şi o functie reală pozitivă detinită pe € care are proprietăţile 
TD) =, 
T(U A,) = X 7 (4) 
dacă (A,) U € este o familie numerabilă de elemente din @ şi dacă 
Uer era orice mulțime A e P(D) 
u*(A) = inf X n(4,), 


marginea inferioară luindu-se pentru toate şirurile (A,) de mulţimi 
din € cu AC U A, şi 


p*(A) = z(4). 
Funcţia x are proprietăţile 
Ae P(D), Be P(D), BD A + x(B— A) = r(B) — x(A), 
AeP(D), Be P(D), BD A > x(B) > x(A), 
(9) = 0, 
0< (A) <1, 
n(CA) = 1 — n(A). 


Nees Sistemul {D, P(D), x} este un cimp de probabilitate complet 
itiv, 
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Vom spune că o cerere de selecţie g defineşte o repartiție de 
probabilități. Răspunsul sistemului va fi atunci 


40 m(@)) | we X}. 


Unei strategii de selecție o = (q, x) îi corespunde o funcţie 
de selecţie astfel ca 


mL, q) = m (2). 


de Un exemplu de funcție aditivă îl constituie funcția Reitsma- 
CĂ Sagalyn 
z, min (d,(), d,(q)) 
__ ua MAX (d,(#), d,(q)) 
Trg = TE eG ? 


care pentru sisteme cu V = (0, 1) devine 


5 d) 4,(q) 


k=1 


n 


2.5.2. Strategii cu funcții de apropiere ; 


Numim funcție de apropiere peste mulțimea X x Q o funcţie 
a care stabileşte o aplicație 


a:XXQ>R 


| ce fixează fiecărei perechi (w, q) de elemente din X x Q un număr 
| real astfel ca 


[Yv e x] (x(a, q) = a(g, )), | 
[Ye eX] (w= q = a(x, q4) = 1). 


În cele ce urmează sînt analizate cîteva funcții de apropiere. Funcţia | 
cosinus : | 


5 da) du(9) 
kel 


kel k=1 


plet 


3 — c, 463 
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Această funcţie măsoară unghiul dintre vectorii gi q. Fiindcă 
numitorul este produsul lungimilor vectorilor în spaţiul n-dimen- 
sional, funcția va crește cu creșterea lungimii vectorilor. Produsul 
scalar al acestor vectori va crește în aceeaşi măsură sau mai putin 
decît numitorul deoarece conform inegalitatii Cauchy-Buniakovski 


(È amaw) < $ ao $ a) 
k=1 


k=1 k=1 


Funcţia va depinde deci de lungimea vectorilor. 
Funcția hipersinus : 


$ 4(2)4,(q) 4,09) 


CES CEE e ERIE IL RI 
($ cata È amaw) 


k=1 


~ a Ati adr 


Efectul numeric al factorului suplimentar d,(q) este nul pentru 
că el poate fi simplificat. Acest factor este introdus pentru a reduce 
lungimea vectorului înregistrare, deoarece produsul d?(x)d,(q) este 
zero cînd d(x) > 0, dar d,(q) = 0. Produsul este diferit de zero 
numai cînd descriptorul d, apare simultan în x şi q. Cu alte cuvinte 
lungimea, vectorului v este calculată în subspatiul spaţiului Q. Fiindcă 
deobicei vectorul v este mai lung decît vectorul d; “ns reduce depen- 
denta de lungime. 


Funcţia lui Parker-Rhodes-Needham : 


O ct ha 


¥ a) aq 


Bx Se 


È Ba: A aq) — x £(o)aule) 


Numitorul reprezintă suma, produselor scalare maxime ale celor 


produsul scalar real. 
sau egală cu produsul scalar 


doi vectori în cazul corelării perfecte minus 
Di TERE va fi totdeauna mai mare 
real. 


Hp 
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a | Funcţia lui Maron-Kuhns : 
su] Mp D n SA ia te 
jin ¥ 4(2)4,(9) X dla) — Y dlodi) Y du(2)d,(9) 
ki | tat z ZA CEE T 
| x d(2)d,(9) X, G,(a)d,(q) + Y du(0d,(9) Y d,(2)d,(9) 
=1 k=1 k=1 k=1 


bo 


În această funcţie d, este complementul lui d,. În cazul vectorilor 
binari dacă 4,2) = 1, atunci d,(2)=0. În cazul vectorilor ale 
căror componente pot lua mai multe valori, 


d,(2) =) 


d,(@) = aa % 


| unde Opar este valoarea maximă pe care o poate lua descriptorul 
| în sistem. Deoarece în situaţiile reale majoritatea componentelor 
sînt nule, nu se complementează decît componentele nenule. 


Funcția de suprapunere : 


n 


y min (d,(2), 4,(9)) 


k=1 


SE oe (£ a(s), Si ato) 


Xs 


k=1 


Numitorul este dat de vectorul cu cea mai mică sumă a componen- 
telor. Numărătorul este un vector în spațiul înregistrărilor ale cărui 
componente aparțin vectorilor @ gi q. 

| Funcţia minimax : 


| x min (d,(«), @,(q)) 


Sy = ‘ 
Ş max (d,(), 4,(q)) 
k=1 : 
celor 
real. | Atit numărătorul cit şi numitorul sînt vectori în spaţiul înregistră- 
ala | rilor cu componente ce aparţin vectorilor æ și g. 
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Funcţia de suprapunere modificată, : 


Ş dul) d, (0) 
kel 


Ș d (2) 
k=1 


sm = 


Numitorul reprezintă suma componentelor vectorului înregistrare. 
Această sumă este totdeauna mai mare decît produsul scalar al 
vectorilor # si q dacă vectorul q este un vector binar. 


în cazul când vectorii œ si q sînt binari vom face următoarele 
notații : 


n, = A {d (x)| k =1,...,n} numărul de componente 1 in 
vectorul v, 
n = 5 (d,(9)| (pb = iyoo opit) numărul de componente 1 în 


vectorul q, 


na = X (d, (w)d, (9) | k = 1,... n} numărul de componente 1 co- 
mune în vectorii w si q, 


na =X {d (x) d (a)l k =1,...,n} numărul de componente 0 co- 
mune în vectorii « şi q. 


Vectorii fiind binari este evident ca 


DCO) bS ao = C E Ly... a 


Cu aceste notații se poate scrie 


co- 
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m 
os = za 
min(n,, n) 
Nog 
om = ? 
ha + (LE ear Na 
Rene: args 


Se observă că in cazul vectorilor binari funcţia a. este identică, 
cu funcţia «pax: 


2.5.3. Strategii cu funcţii de repartiție 


În urma procesului de indexare se obţine o familie (X,) de 


parti disjuncte două cîte două, a căror reuniune este mulţimea X 
a înregistrărilor : 


X, = {a|d(e) =. 


Deoarece (X,) este o partitie a multimii X gi v, sint numere reale, 
Junctia d definită pentru orice ze X prin egalitatea 


da(s) = v, 
este o variabilă aleatoare : 
d:X>V, KHER: 
Considerăm n variabile aleatoare di, do, ..., d, si aplicaţia 
v> (d,(), da(8), -- + &a(2)) 
a lui 2 în R”. 
Fie 
I = { (0, Voy ++ -3 Vp) Or < My Va < Qar: ++) Va <a,} 


XG gS {w|d(w) e I}. 
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Funcţia 
F(a, Ag, ss. An) = p(2 (Anh coop an) 
este funcția de repartiție a variabilelor aleatoare d, d ...,d,. 
O funcție normală F este definită prin densitatea de repartiție 


1 
— —I(Yy, Vz... s Un 
2 


1 
A T ae € , 


unde 


n 
gl, Vay sey On) = X 40,0; 

i j=1 
este o formă pătratică strict pozitivă, iar coeficienții a,, sînt ele- 
mentele unei matrice 


an. rec din 
A =3 Co. ee Aon 
A Oe ee Ann 
Considerăm funcţia 
1 
——(%—@tA-l(n—q) 
DEE ea 
(27c)7/2 | A [ue 
unde 
d(x) d,(q) 
de() do(q) 
d(x) d (w) 


și A este matricea dispersiei. 
Hipersuprafetele Oy (2) =¢ sînt hiperelipsoizi centrati pe 
punctul g. Aceşti hiperelipsoizi sînt suprafețe de egală probabilitate 
Daţi ape al înregistrărilor. Răspunsul sistemului la 
rategie cu functie normală va fi deci o rupare elipsoidal n- 
trată în jurul cererii de selecție. SARE aE Ala «e 


tie 


le- 
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Fiindcă A este pozitiv definit putem scrie 
A= TDD T, 


unde T este o matrice nxn a vectorilor proprii ai matricei At, 
iar DD este o matrice diagonală nxn ale cărei elemente sînt 
valorile proprii ale matricei A-1. Cu transformările 


a = Aa, 
A= DT, 
functia devine 
1 = (a—Ray'(z—2a) 


(2) 


= —_______e 
(2n)n® A|> 


Transformarea à schimbă gruparea elipsoidală într-o grupare sferică. 
Funcţii de selecţie pot fi construite şi cu ajutorul ditribuţiilor 
Pearson. Astfel funcţia 
T(m + n/2 +1) t m 
a) = — i |W]? (1 — (x — g) Wie — @)) 
Ol = Seep a ee a ale A 
reprezintă distribuţia Pearson de tip II 
,o(@) peste regiunea T, 
© in afara regiunii T, 


®p2(2) a 


unde T este interiorul hiperelipsoidului (x — q) W(e — q) = 1, 
m> 0, gi SE 


1 
2m +n + 2 
I este funcţia euleriană de a doua speţă; pentru n întreg si pozitiv 
Funcţia, 


W = ae 


Dm) ype + (e — a We 0)”, 
2 T(m — n]2) 


de 2m >n, reprezintă distribuţia Pearson de, tip: VIR 


®p7(@) z 
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În particular, dacă 2m > n + 2, matricea covariantă există și 


Waly eee fn 


2m — n — 2 


Ambele tipuri de distribuţie Pearson tind spre distribuţia 
normală cînd m tinde spre infinit. 


2.6. ECHIVALENTA STRATEGIILOR 
DE SELECŢIE 


O strategie de selecţie o, induce pe mulțimea X o ordonare 
astfel încît există o aplicaţie £ din X în Z. Creşterea rangului în mul- 
pimea întregilor I reflectă descregterea valorilor funcţiei de selecţie”). 

Spunem că două strategii sînt echivalente dacă induc aceeaşi 
ordonare pe mulțimea X, adică dacă conduc la același răspuns. 


2.6.1. Deosebirea de răspuns 


Numim răspuns comandat al sistemului de selecţie mulțimea, 
x, = {a]y,(@) > Cp). 


Notăm r, rangul unei înregistrări a, e X obţinut ca urmare a 
aplicaţiei č. Atunci 


ElL) => 
Erla) = Fess 
Ric SP, e 


Definim o functie de raspuns 


1 Pi 
glz) =— J} Xz —7,), 


k i=l 


unde m, = card X,, iar § este funcţia treaptă unitate. 


* Există și posibilitateea ca situaţia să fie inversată, ca de 2 & 
1olosirii funcţiilor de distanță drept funcţii de selecţie. 2 eee caza By 
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tă şi Astfel pentru aplicaţia &, 
My 


2) = — Y (2 — r, 
gr,(2) m, di dl 1) 


i iar pentru aplicaţia č, 
1 my, 
Jex(2) = — y (2 — Ta): 
k t=1 


Definim deosebirea de raspuns 


A, = f (ge; (2) — Jex (2) dz = 


=> | C 16-4) a= 


™, i=1 J1 

1 my, My 
RY ¥ Te — y Ta ja 

M, Uz i=l 


Condiția de echivalență a strategiilor de selecție poate fi reformu- 
lată astfel : două strategii sînt echivalente dacă deosebirea de răspuns 
este nulă. 

Luind ca etalon o strategie cı = (g, yı) valorile A permit eva- 
luarea sistemului, adică aprecierea, proportiei de elemente utile 
selecţionate de sistem pentru fiecare din strategiile Gn Croo ca Gx 


; 2.6.2. Lungimea de selecţie 


Fie o strategie de selecţie c, care induce o ordonare a mulţimii. 
X. Răspunsul comandat al sistemului este 


XG, = { a| Ys (x) > ¢,}. 


O alta strategie de selecţie o, induce o altă ordonare a multi- 
mii X. În acest caz răspunsul comandat al sistemului este 


Xy = {| Y; (2) > Cy} 
În mulţimea ordonată de strategia o, există o submulțime 
ZX, = {v| y,(@) >a} 


a cazul 
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astfel ca 
du Gad, 
Considerăm o măsură u: P(X)— R și fie X, = Xn U X,. Atunci 
v (X) = u (Xa) + ud). 
În mod similar pentru X,, = X,, U X, 


u (Xa) = u (Xe) + u (X). 


Dacă drept măsură folosim numărul cardinal şi definim lungimea de 
selecţie ca numărul elementelor cu y, (7) < e, ce apar într-un răspuns 
comandat de (c,, ¢,), atunci condiţia de echivalență a strategiilor 
de selecție poate fi reformulată astfel: două strategii sînt echiva- 
lente dacă conduc la aceeaşi lungime de selecție. 


2.7. EFICACITATEA STRATEGIILOR DE SELECȚIE 


Considerăm răspunsul comandat 
X, = {0| Ya (8) > ¢}. 


În acest caz, ca urmare a procesului de selecție se produce o diho- 
tomie, adică o partiție a mulțimii X în două submultimi disjuncte 
X, si CX,, prin hipersuprafata y,(«) = o,. 

Presupunem că în sistem sînt + înregistrări. Este evident că 
există 2" dihotomii distincte, fiecare înregistrare putind fi fixată 
la X, sau la CX,. 

O măsură a eficacitatii unei strategii de selecţie este numărul 
total de dihotomii pe care le poate efectua. 


___ Dacă poziţiile a r înregistrări satisfac unele condiţii, numărul 
dihotomiilor care pot fi realizate de o strategie o = (q, y) va depinde 
numai de numărul de înregistrări r si de numărul de parametrii ai 
funcţiei y și nu de configuraţia, înregistrărilor sau de forma funcției. 

Pentru r > n spunem că o mulțime de r puncte este in poziţie 
generală într-un spaţiu n-dimensional dacă şi numai dacă nici o 
submulțime de n + 1 puncte nu stă pe un hiperplan (»—1)-dimen- 
sional, Cind r < n, o mulţime de r puncte este în poziție generală 
dacă nici un hiperplan (r—2)-dimensional nu conține mulţimea. 


LCi 
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În anumite cazuri speciale, importante in practică, inregistra- 
rile pot să nu fie în poziţie generală. De exemplu dacă componentele 
înregistrării sînt binare, înregistrările sînt virfurile unui hipercub. 
În acest caz poziţia generală implică că nici o submulțime de n + 1 
virfuri nu poate sta pe aceeași față (n—1)-dimensională. 

Chiar cînd înregistrările nu sînt în poziție generală, expresia 
care se obţine dă o margine superioară pentru numărul dihotomiilor. 

Fie L (r, n) numărul de dihotomii a r înregistrări obţinute cu 
o funcţie de selecţie liniară, adică dublul numărului de moduri în 
care r puncte pot fi împărțite de un hiperplan (n—1)-dimensional, 
considerînd că pentru fiecare împărțire sînt două clasificări diferite. 
Expresia generală pentru T (r, n) se obţine cu relaţia de recurenţă 
cunoscută 


L(r,n) = L(r —1,n) + L(r —1, n — 1). 


Folosind condiţiile la limită evidente 


L(,n) = 2, 
Ei (il) 
este ușor de verificat că 
Š t 
EE 23 Ci-ı pentru r >n, 
2" pentru r <n. 


E h 
Funcţia y este de forma ¥ ci, şi generează hipersuprafete 
i=l 


pe care le vom numi hipersuprafete y. Pentru a calcula numărul 
dihotomiilor realizate de hipersuprafata y observăm că fiecărui 
punct ve X îi corespunde un punct geG 


g ={b,(w)|¢ =1,..., h 


Deci mulțimii X cu r puncte în poziţie generală în spaţiul n-di - 
vena $ i Tuine G cu r puncte în nat Maimane a 
iindcă o dihotomie liniară a mulțimii & cores i di îi 
eu a cane: p punde unei dihotomii 
h 
2 %0 
at Ae »» 1 pentru r >h, 


2" pentru r< h. 
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Pentru o funcţie pătratică care are h = (n) (n + 3)/2 componente 


y(",h) = iin mena 


Astfel o hipercuadrică este o suprafață de decizie mai puternică decit 
hiperplanul şi putem spune că o strategie de selecție cu funcție 
pătratică va fi mai eficientă decît o strategie cu funcţie liniară. 
Numărul componentelor unei funcții de selecție parametrizata 
depinde însă de numărul de componente nenule al vectorului care 
reprezintă cererea de selecţie şi deci implicit eficacitatea unei stra- 
tegii de selecţie va depinde de lungimea vectorului cerere. 

n cele ce urmează se face o analiză comparativă a cîtorva 
strategii tipice. 

În cazul strategiei cu funcţia nrs, cînd funcţia are valoarea c, 
ecuația 


n 
E 4, (2) d,(q) = en 
k=1 

reprezintă un hiperplan. 

Funcţia zrs are deci n componente numai atunci cînd vectorul 
cerere de selecţie are toate componentele nenule. Deobicei numărul 
zerourilor este mare şi eficacitatea acestei functii este scăzută, 
cind înregistrările sînt reprezentate prin vectori binari. 

În cazul strategiei cu funcţia asu cînd funcţia are valoarea e 
ecuaţia 


5 d,(2)d,(q) — e § d, (2) 50 
al k=1 


reprezintă de asemenea un hiperplan. Funcţia asm are însă totdeauna 
n componente independent de numărul de zerouri în vectorul cerere, 
deoarece cel de-al doilea termen nu este influenţat de acest vector. 

f n cazul strategiei cu funcția «ery cînd funcţia are valoarea ¢ 
ecuația 


n 


¥ (2) (a) — (ao +5 aw- hawao) =o 
k=1 1 kel k=l 


ke 


reprezintă o hipercuadrică, Funcţia «pry are cel mult 2n componente. 


© 


ate. 


| 
| 
| 
| 
| 
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În cazul strategiei cu funcpia cosinus, cînd tunoţia are valoare 
ec, ecuația 


(£ d, (0) d, w) — o Ș dla) Y dla) = 0 


hel heal kol 


reprezintă de asemenea a hipercuadrică, Functia «o are n(n + 1)/2 
componente. 

Rficacitatea acestor ultime două funcții pătratice diferă sensi- 
bil numai pentru sisteme cu număr mare de descriptori. 

În anexa 1 criteriul de apreciere a eficienței unei strategii 
de selecţie este veriticat practic pentru o colecţie artificială de 
înregistrări. 


2.8. RĂSPUNSUL SISTEMULUI 


În cele ce urmează vom prespune că funcţia de selecție ia valori 
numai în intervalul [0,1]. 

Un răspuns X, la o strategie de selecţie o = (q, y) este o mulţime 
de elemente ze X determinată de o functie de selecție y,, care aso- 
ciază cu fiecare ve X un număr real în intervalul [0,1], valorile 
Ya(%) reprezentind gradul de apartenenţă al înregistrării ~ la răs- 
punsul Y,. Astfel cu cit y,(#) este mai aproape de unitate, cu atit 
este mai mare gradul de apartenenţă al elementului w la mulți- 
mea X,. i 
Un răspuns X, este vid dacă si numai dacă 


[Vv E X] (Y. (v) = 0). 
Două răspunsuri X,, si X, sînt egale dacă şi numai dacă 
[Yve X] (Ya (2) = Ye ()). 


Spunem că răspunsul X,, este conținut în răspunsul X,a 
adică Xa C X, dacă și numai dacă 


[VvE X] (Ya (2) < Yea (2)). 
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Pentru 2 funcţii de selecţie vor fi z strategii de selecţie 


S = (Yy 9) 
oa = (Ya 4); 
G, == (Yz; q). 


Fiecare strategie o, determină un răspuns XR: 
Definim reuniunea a două răspunsuri X, si X, cu funcţiile de 
selecție y, si y, ca fiind un răspuns X, = X, U X, la care 


[Vaze X] (y,,(@) = max (y, (2), y, (2))), 


adică cel mai mie răspuns care conţine si X, ye Dear 
Dacă X, este un răspuns care conține xX, şi X,, atunci el conține 
şi reuniunea Spa = X,UX,, deoarece 


[Vve X] (max (y(x), x, (%)) > y.(#)), 
[Vee X] (max (y, (2), x, (2)) > Y, (%)), 
[Vae X] (y,(%) > Y.(@)), 


Mare Flo) > ¥, (2)) 
şi deci 
[Vze X] (Y: (£) > max (Yı (2), Y; (2)) S A (2)), 


ceea ce implică 
ENE 


Definim intersecția a două răspunsuri X, şi X, cu funcțiile 
de selecție y, şi y, ca fiind un răspuns X,, = X, nx, la care 


[Vase X] (Yu (2) = min (y; (2), y; (2))), 


adică cel mai mare răspuns care este conţinut in X, şi X,. 
Pe baza relaţiei 


[Vee X] (1 — max (y, (2), y, (2))) = min (1 — y, (2), 1 — (2), 


care se poate verifica, ca fiind identitate pentru cele două cazuri 
posibile 


y: (%) >y, (2), 
yı (%) < y (a), 


| 
| 
| 
| 
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se pot verifica identitățile 
AUX = UE, comutativitate, 
se DAC) (AU E) UA asociativitate, 
X, N (Z, N Z) =(X.N Z) U (Z, N X,) distributivitate. 


Această interpretare a răspunsului sistemului ca 0 mulțime 
fuzzy permite analiza unitară a strategiilor de selecție, indiferent. 
de faptul că cererea de selecție este liniară (cu descriptori indepen- 
denti) sau structurată (cu descriptori legați prin relații logice). În 
paragraful ce urmează se arată cum răspunsul unui sistem cu cerere: 
structurată poate fi interpretat în termenii răspunsului unui sistem. 
cu cerere liniară. 


2.9, STRATEGII CU CERERE 
STRUCTURATĂ 


Numim termen, o disjunctie de descriptori 
G = Vd, (2). 


O cerere de selecție se zice structurată dacă poate fi reprezentată. 
printr-o conjunctie de termeni 


4= AG. 
O cerere structurată cu i termeni, fiecare termen avînd n, descrip- 
(ce 


tori este echivalentă cu z = JJ n, cereri liniare. Astfel o cerere de 


j=1 ` 
forma 


q = (4, V dz) A (dg V d, V ds) A de 
este echivalentă cu 6 cereri liniare 


di, da, de, 


dy, da de, 
di ds, de» 


rector 
> SS aia ra 


air: mea se = 
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da ds, dg, 
da, da de, 
de CATCAT 
‘O cerere de forma 
q = (a V da) A (da V da V (ds A de) V (dz A de) 
este echivalentă cu 8 cereri liniare 
d; ds, 
d,, da; 
di, ds, de, 
d,, dz; ds, 


O cerere structurată echivalentă cu z cereri liniare pretinde z selecţii 


în urma cărora se obţin z răspunsuri parțiale. Pentru z cereri liniare 
corespund z strategii 


a = (Y, %), 
02 = (Y; 42), z 
Oz = (%, l). 


Fiecărei strategii îi corespunde un răspuns parțial X,. Reuniunea 
răspunsurilor parţiale definite de cererile de selecție grs 92, ...,q, 
este un răspuns X, = XG UEXE eee UX, la care 


[Vac X] (Ya(2) = max (y, (2), y (2), ..., Y, (%))). 


El Intersectia răspunsurilor parțiale definite de cererile de selecţie 
Ft 41) 42, ---» 4, este un răspuns X, = X,NX2N...X, la care 


[Vaze X] (Y, (2) = min (y, (2) Ya (@),..., y,(@))). 
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2.10. OBSERVAŢII BIBLIOGRAFICE 


O excelentă trecere în revistă a tuturor modelelor matematice 
propuse pentru sistemele de regăsire a informaţiilor este făcută 
de Edmunson [38]. 

Mooers [102] şi Fairthorne [40] s-au ocupat de sisteme de tip 
(X, D, +), unde X este spațiul înregistrărilor, D spaţiul descriptorilor 
şi + o transformare din D în X. Procesul de selecție este definit 
prin impunerea unor structuri pe spațiul X şi a unei transformări 
~ astfel încât t aplicată unei cereri de selecţie g produce o submulțime 
a mulțimii X. Spaţiul X este descris ca fiind format din toate submul- 
timile posibile ale mulţimii X, adică mulţimea P(X). Fiindcă 
mulţimea X este finită, o structură evidentă pentru X se sugerează 
imediat şi anume structura de algebră booleană finită. Spaţiului 
D i se dă adesea o structură mai complicată care depinde de tipul 
de descriptor folosit. Mooers [102] reprezintă descriptorii ca niște 
sisteme ordonate parţial cu două elemente. Spaţiul D devine atunci 
produsul cardinal al sistemelor parţial ordonate cu două elemente. 

Acest spaţiu este o latice booleană. 
| Totuşi structurile abstracte impuse pe D si X nu sînt structurile 

| reale induse în D şi X de procesul de indexare. 

ae Kasarda [70] arată că într-un sistem de selecţie abordarea 
LE formală a procesului de selecție nu este foarte utilă şi că punctul 
mat de plecare în determinarea structurii este chiar procesul de indexare. 
Soergel [173] defineşte o semiordonare a mulțimii D dacă 


„d; < d, 2}[Va] (d, (x) adevărat + d, (x) adevărat) 
şi în acest caz există un element minimal 
min {d| d (2) adevărat). 
După Mooers el defineşte două transformări ale mulţimii D în mul- 
timea P(X) a tuturor submultimilor lui X 
T (d) = {x| d (x) adevărat A d = min {d| d(x) adevărat}, 
T (d) = U!T,, (e)|e<d} = {x| d(x) adevărat). 


cpie Mulțimile 7,, nu au nici un element comun deoarece pentru fiecare 
semiordonare există un singur element minimal. Multimile Zp, in 
general, nu sînt disjuncte, deoarece pentru d, Æ dą poate exista 


4—c. 463 


| 
| 
| 
i | 
| 
| 
j] 
| 
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e încît e < d, şi în acelaşi timp e < d, astfel ca 7,,(e)CT(d,) și 
vA (e) C Tie (da). 

Fairthorne [40] a introdus două transformări : pseudocomple- 
mentul dublu şi complementul Browerian dublu. Dacă D, este o 
mulțime de descriptori, pseudocomplementul dublu D;` al mulțimii 
D, este cea mai mică mulțime care conţine toate înregistrările inde- 
xate de D,, dar nu numai de D,. Complementul Browerian dublu 
> D, este cea mai mare mulțime de înregistrări care confine numai 
pe D, însă nu toate înregistrările ce contin pe D,. 

Rocchio [146], Salton si Woods [162] au indicat sisteme de 
tip (X, Q, 7), unde Q este mulțimea cererilor de selecţie, iar + este 
o transformare din Q in X sau in P(X). 

Goffman [50] a introdus noţiunea de funcţie de evaluare E (A) 
şi a definit procesul de selecţie ca determinarea unei submultimi 
BC P(X) astfel ca E (A) săfie maximă pentru B = A. El a indicat 
o funcţie de evaluare de forma 


E (4) = Sp (2) — b (1 — p (8), 


unde p (x) este o probabilitate definită de cererea de selecţie. Funcția 
de evaluare este deci o măsură a premierii minus o măsură a pena- 
lizării sistemului, iar a si b sînt constante nenegative ale sistemului. 

Noțiunea de strategie de selecție a fost introdusă pentru prima 
data de Kent [72], Becker si Hayes [8]. Ei au definit strategia ca 
forma cererii de selecţie. Această acceptiune a noţiunii este intil- 
nită în majoritatea lucrărilor privind sistemele de regăsire a infor- 
matiilor. Salton [162] foloseşte noţiunea de strategie pentru o metodă 
de selecţie. 

O formulare a procesului de selecţie folosind reprezentarea 
vectorială pentru înregistrări și cerere a fost făcută de Salton [158], 
care a introdus coeficientul de corelaţie tip cosinus. 

_ Un studiu experimental pentru compararea eficacităţii coefi- 
cientilor de corelaţie folosiţi în prezent este facut de Reitsma-Sa- 
galyn [144]. 

Noţiunile de funcţie de selecţie şi de strategie de selecţie, 
metoda de determinare a eficienței strategiilor de selecţie şi inter- 
pretarea răspunsului unui sistem ca o mulțime fuzzy, au fost intro- 
duse de [121], [122], [124]. Echivalenta strategiilor de Selectie este 
prezentată pe baza lucrărilor lui Rocchio [146] şi Cooper [27]. 


3 SISTEME CU SELECTIE 
j PRIN ASOCIERE 


ste În cele ce urmează se consideră asocierea automată a descrip- 
torilor similari, presupunînd că similaritatea este determinată de 
coaparitie. 


cat | 31. MATRICEA DE SIMILITUDINE 
| 
| 


Fie matricea de fixare 
Vy Vo eee Url 


p| %22- me |, 


Pad Vim Vom ses v 


nm 


unde v, EV este valoarea descriptorului d, e D pentru înregistrarea 
æ= X. Atunci fiecărei coloane i îi corespunde o mulțime finită D, 


paa | a înregistrărilor g care conține descriptorul d, : 
E. D, = {x|v,, > 0}. 
esi, Fie 2 = {D,, D», ..., D,} mulţimea tuturor mulțimilor D, si D* 


= {2,, Da, ...,9,} mulţimea tuturor submultimilor mulțimii a. 
O funcţie de distanţă peste mulțimea 2* x 9* este o aplicaţie 


efi- 
Dar eel è: D*xO* > R, 
| care fixează fiecărei perechi de mulţimi (9,, 9,) un număr real 
chie, | astfel ca 
ies | N2] [V9,] (8 (9,, 9,) = è (D, , ,)), 
este | [Y9,] [va] (9, = 9,28 (D,, 9,) = 0), 


[27]. | [VD,] [V9,] [VD,] (3 (9,,9,) < 3(9,,9,) + è (9,, 9,)). 


4 
si 
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Dacă considerăm mulțimile 9, = {D,}, D, = {D,} şi notăm 
SED DI S; 
se obține o matrice 
: Bip Sia F 


g a | Sar S22 -+ Son 


SSE Gap 


numită matrice de similitudine ale cărei elemente le vom numi factori 
de similitudine de tip 3. : 

În matricea de fixare F fiecare coloană este un vector D; 
Atunci mulțimea D = {D,, D,, ..., D,} poate fi considerată ca mul- 
timea vectorilor D,. 

O funcţie de apropiere pe mulţimea 2x® este o aplicaţie 


a: 9x99 > R, 
care fixează fiecărei perechi ordonate (D,, D,) un număr real dacă 
[VD,] [VD,](«(D,, D,) = « (D,, D,)), 
[VD,] [VD,] (D, = D, =a(D,, D,) =1). 
În acest caz 
Su = a (D,, D,) 
este un factor de similitudine de tip «. 


3.2. METODA EXTINDERII 
CERERII DE SELECŢIE 


Matricei S de similitudine îi corespunde o matrice A adiacentă 
booleană ale cărei elemente 0 sau 1 se determină în modul următor : 


4, = 1 dacă s,>s, 


4, = 0 dacă s, <s, 
unde s, este o valoare de prag. 
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Elementele matricei A specifică o corespondență prin care 
fiecărui descriptor d, îi corespund descriptorii d, 


d 0,0, e J.=1,...,2, J #4 


Vom numi deseriptori similari descriptorii d, astfel obţinuţi. 
Considerăm o cerere de selecție dată 


q = {d, (q)lk=1, n). 


Sistemul poate construi automat o nouă cerere de selecţie inserind 
| în cererea dată descriptorii similari obținuți din corespondentele 
tori 3 i 
ad, (0) > %, 4,, j=1,.. mj Ek 
Astfel de la strategia o = (q, y) sistemul trece automat la strategia 
| 6s, = (Geos y): 


3.3. METODA VALORII 
DE ASOCIERE 
Considerăm vectorii 
v= K Oa — 1, ..., 2}, 
i = d, (0) k =1,..., n}. 
Pentru fiecare descriptor è nenul din q există 


y= > Su 


unde s, sînt elementele matricei S, iar j sînt indicii descriptorilor 
nenuli din înregistrarea v,e X. Pentru fiecare înregistrare v, există 
deci 


ents 4 
tor : | ORE Dy v A 


unde i sînt indicii descriptorilor nenuli din q. 
Valoarea maximă a lui v, se obţine în cazul cînd w, este un 
vector cu toate componentele diferite de zero, adică are toți descrip- 
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torii sistemului. Atunci 


Funcţia y, cu valori 


este o funcţie de selecţie. 

Cu această metodă pentru o cerere q sistemul isi determină 
automat funcţia de selecţie şi deci strategia de selecţie. 

ntr-un sistem cu selecție prin asociere, lucrind corect, nu mai 

este necesar să se folosească în cereri descriptori identici cu cei din 
înregistrări, cu condiția, ca în cererea, inițială să se folosească descrip- 
torii sistemului. Se presupune însă că relaţiile care generează asociația 
au sens și că sînt generate toate asociaţiile. 

' Practic, aceasta presupune că matricea de fixare, folosită ca 
să genereze asocieri este descriptivă pentru o colecție mare. 


3.4. FACTORI DE SIMILITUDINE 


3.4.1. Factori de similitudine tip § 


Fie 5D) (DD, D,), unde D, este mulțimea înregistră- 


rilor 4 care contin descriptorul d,, 


D, ST {z| V > 0}, 


şi D* = {D , Da, ..., D,} mulţimea tuturor submulțimilor mulțimii 
2. Vom arăta că puterea diferenței simetrice 


D, + D, = (2 U ®,) a (DNAD) 
este o distanță, adică 


du (2, 2,) = card (2, + 9,),. 


N 
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ceea ce înseamnă 
card (2, + 2) =0 +9, =9,, 
card (9, + 9,) = card (9, + 9,), 
card (2, + ®,) = card (9, + 9,) + card (9, + 9,)- 


Fiindcă 3, (2,, 9,) este puterea unei mulțimi, aceasta este fie 
un număr pozitiv, fie zero dacă mulțimea este vidă. În ultimul caz 
toate elementele lui 9, aparțin lui 9, şi toate elementele lui 9, 
aparţin lui 9,, adică 

2 =9, 
şi condiţia 1 este satisfăcută. 

Fiindcă operaţia, diferență simetrică este comutativa, condiția 2 
este satisfăcută. 

În diagramă fie a, b, c, d, e, f, g diversele regiuni in care 9, 
®,, D, pot fi împărţite. 


Avem > Dj 
9 +9, = {a, b, f, gb Di Ge. 
a, +9, = {b, c, d, g}, ISD 
D, +9, = fa, d, c, f}. C h 
Deci 


du (9, 2.) = card a + card b + card f + card g, 
3,,(9,, 9;) = card b + card c + card d + card g, 
3,,(9,, 9,) = card a + card d + card + card f. 
Astfel 
du (2, De) + Su (Dr, D) = card a + 2 card b + card e + 
+ card d + card f + 2 card g, 
Sy (Diy De) + Su (Dey 9) — dy (D, D) = 2 (card b + card g) > 0. 
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Deci 
Sy (9, ®,) ap du (9, ®,) > Sy (2,, %,) 


şi conditia 3 este satisfăcută. 
Acum considerăm submulțimile 


9, = {Dj}, 

| 9, = (D i 

i şi notăm 

òn (Du D,) = Sy. 
Se observă că atunci cînd mulțimile sînt disjuncte 
D,D, = Ø, z 
D, + D, = D,UD,, 
max òy (D,, D,) = card D, + card D,. 


În matricea de fixare F fiecare coloană este un vector D.. 
Funcția i 


|5 (d, (%,) — d, (2,))2 = 8,(D,, D,) 


este o distanţă. Primele două condiţii sînt vizibil verificate. Pentru 


Sea uea treia condiție vom folosi inegalitatea lui Cauchy-Bunia- 


é 


Dacă notăm 
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Cu aceste notații 


83 (D,, Ds) = ŞI (de (a,)—4, (2)? ȘI (ae + 82 = 
k=1 


~ k=1 
ce n n 
= >A a&+2¥ a,b, + i Are 
k=1 k=1 k=1 


n n n n n To 8 
< Seria b+ yu =( va + $a] = 
_ kel k=1 k=1 k=1 k=1 k=1 


= (8, (D, , D,) + 3, (D, 3 DIZ 
fn cazul vectorilor binari 


35, (D,, D,) zi 8, (D,, D,). 


3.4.2. Factori de similitudine de tip œ 


Factorul de similitudine de tip « poate fi definit de oricare 
i din funcţiile de apropiere analizate în paragraful 2.5. De exemplu 


Ș 4, (2) d, (2) 
(8,5) sx = Ei Ea Lă 


Sa, (2) 
k=1 


§ d, (@,) d, (a) 


Tr 


>» d, (a,) d,(2,) 


(8,,)pr~ = > 


Fa) + X, E0) — ¥ aaa) 


Ta a r- 
n ue N ai = è = 
aE A RR OA = 
Se mei a aie a 
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min (d, (#,), d, (%)) 


r 
k=1 
r 

=1 


(Su) uu = % 


x 
Y, max (d, (2, d, (2,)) 


k 


3.5. FACTORI DE SINONIMIE 


3.5.1. Factori de sinonimie bazaçi 
pe matricea de similitudine 


Considerăm matricea de similitudine 


S S 
| S21 S22 +++ Son 


S = 


di o. ef) Semele ae, 


Sal Sn2 Smo San 

| şi vectorii linie 

ie SE de a al, erty NY, 
i SiS Oe | Sak V: 


Factorul de sinonimie este factorul de similitudine dintre 
vectorii Sy si Su: 


i =t (Si Six) . 


Folosind din nou funcţiile de apropiere factorul de sinonimie poate 
avea forma 


n 
S y mn (8, ’ Sur) 
i=1 


tez = 
min Í X 8an 
i=1 


i=1 


(EOE) 
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3.5.2. Factori de sinonimie 
bazati pe context 


Introducem notatiile : 


f numărul total de componente ale unui vector coloană in 
matricea F, 


f, numărul de componente nenule ale unui vector coloană in 
matrice F, 


fi, numărul de componente nenule comune in vectorii coloană 
i şi j în matricea F. 


Numim context al descriptorului d,, mulţimea 
Co 10 fu 0,44, b=1,...,n}- 


Contextul descriptorului d, va fi multimea 


Fie 


gi 


C, ={4, |f,, 0,44 j,k =1, ...,n}. 
Numim context al descriptorilor d, si d, multimea 


Cu = (de fa FO fr E0 kEi Fj k=l, coop Wo 
G= (da) fi 2240, ae iin: =0,k£i14j,k= 1, sieis n) 


Cin = (de | fr £ 0, fn £ 0, fie £ 0, kit, k = 1, .. n}. 


Atunci se poate serie 


CNC, = C,,, 
CU Ci = Cy, 
Cn Nn =O, 
card C, + card 0;,, = card C 


tf A 


fi, =0 fu = 0, 
ip 0) =0,,=98, 
On =ø >C 


te = Vig 
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Spunem că doi descriptori sînt sinonimi cînd au contexte 
| similare si nu coapar în aceeaşi înregistrare, adică 


yas =0 , 7 
Cr Pl popi 
Un factor liniar de sinonimie de forma 


Sy = k card C,,, — card C, — card C, 


ţi este 
| min (fins fn) dacă fi >0, fu >9, 
al x ayie = fi dacă fis > 0, fue =0, 
H =g = m 
| Si vezi, îm dacă fa=0,fr >0, 
kii s 
0 Gack îi = Osi, S Or y 
O măsură care să reflecte şi mai mult asocierea semantică este 
Su = y Shs 
k=1 
kij 
unde 
media (max (0 | e — a) » max (0 {is — ae ): 
f Je Hd 
dacă Ike SO ii >0 ? 
pe = max (0, (fa —“2*)) dacs fa >0,fa = 0, j 


— max (0 ? (i = Aie) anca fx = 0 fn >0, 
0 dacă fis = 0,fu =0. 
3.6. REDUCEREA VOCABULARULUI 


Considerăm matricea de similitudine S. Acestei matrice îi 
corespunde o matrice adiacentă A ale cărei elemente 0 sau 1 se 


te 


mb de "n Nei ra a maretia oe 8 caza ui 
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determină în modul următor: 
4, =] dacă s, > 8o 
a, =0 dacă Sy <8, 


unde sọ este o valoare de prag. 

Matricea A este matricea asociată unui graf G(D, T) format 
din mulţimea D şi o aplicaţie [ a mulțimii D în P (D), mulţimea 
părţilor lui D, încît 

d, eD, 
Td, €P (D). 


Astfel 
a, =1 daca d,el'd,, 


a, =0 dacă d, eId,. 


Fie arcul (7, j), adică perechea (d, d, ) dacă d,eTd,. Mulți- 
mea U a arcelor grafului determină complet aplicaţia T. Din acest 
motiv 


G (D, T) G (D, U). 
Astfel similitudinea este definită de arcele grafului si 
(d, d) EU =a, EA. 


Matricei de similitudine îi corespunde un graf simetric. 

O cale în graful G (D, U) este o succesiune de arce astfel încît 
extremitatea finală a fiecărui arc coincide cu extremitatea inițială 
a arcului următor. 

Numim atingere o relație de semiordonare care este : 

reflezivă pentrucă fiecare punct al grafului este atins de el 

însuşi printr-o cale de lungime zero ; 

tranzitivă pentruca dacă există o cale din d, în d, şi o cale din 

d, în d, atunci există și o cale din d, în d,. 
În graful simetric atingerea are şi proprietatea de simetrie pentrucă 
dacă d, este atins din d,, atunci d, este atins din d, . In acest caz 
atingerea este o relaţie de echivalență si există o descompunere a 
mulțimii D în mulțimi disjuncte, adică o partiție. 


62 SISTEME DE ÎNMAGAZINARE ȘI REGASIRE A INFORMAŢIILOR 


Considerăm matricea de incidență 
R = (ru) 


unde 
ry = 1 dacă d, este atins din d,, 


yy Sak 


Fie & mulţimea tuturor punctelor in D atinse din d, 4, 
mulţimea tuturor punctelor atinse din D, pe o cale a cărei lungime 
nu depăşeşte k. 

Mulţimii $, i se asociază o matrice R,. Dacă A este matricea 
de asociere a grafului G (D, U), atunci în A* elementul (i,j) repre- 
zintă numărul de secvențe în 4 (D, U) de lungime k din d, la d, . 

Fie A; matricea A* unde înmulțirea este booleană și I matricea 
unitate. Atunci R, este matricea punctelor atinse numai de ele, 


Tiry = IER 
E, este matricea punctelor atinse de lungime 1, . 
R SIFA; 
R, este matricea punctelor atinse de lungime 2, 


R, = (I+ A+ 42). 
Deoarece (I + A)? = IT + 2A + A? gi (2A), = A 
avem 


(I+ AR = +2444), (I + A + 4, 


R, = (I + AX. 
Atunci pentru orice întreg pozitiv 


Bi Chapel A E A 10 F Aa. 


Pentru orice graf cu p puncte R = R,_,, deoarece cînd d, este atins 
din d, trebuie să existe o cale de lungime cel mult p —1din @, in å. 


_ Un grai care nu este tare conex poate fi caracterizat de matricea 
de incidență R. Fiind dată o matrice R îi separăm liniile şi coloa- 


| 
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nele. Matricea R se zice descompusă sau redusă dacă poate fi împăr- 
tits în submatrice Ru, Ry, Ry, Ba 


| ni -| Ry a 
Ra Roz 
a | astfel ca Ra si Rə să fie pătrate, iar Ra şi Ry, să fie constituite 


numai din zerouri. 
Pentru a se putea obţine ușor virfurile care aparțin aceleiași 
BA submatrice este suficient să se obserye că dacă două virfuri aparțin 
=i aceleiași submatrice, atunci în matricea (I T A); liniile care cores- 
pund fiecăreia dintre ele sînt identice. Este suficient deci să se numere 
ai valorile 1 din fiecare linie si să se grupeze vîrfurile avînd linii 
a identice. 
| De exemplu fie graful a cărei matrice asociată este 


cooscooHoos 
SroorHSOoOSCCS 
SScHHoOoCSOSCCO 
FoosooHoOoOoH 
ecococotroscso 
SroocoooHoS 
SSOrHFoOSCSoOoOHCS 
Seoecorooorocs 
eScocorocscHo 
ececocooocoorooco 


atunci matricea R este 


A R =a 
tins 

d, e | 
cea 


loa- 


CrS 
— ee ko) 
rRPoooorRFHFHoorFH 
—F i — hh — 
—— oohHoD 
SCroecorooCorHS 
le Ol 


[i 


Le — oRHOooPHR 
rFPOoooorRrFoorH 
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Rearanjind coloanele gi liniile se poate pune în evidență partitia 


d, dy d; dio de de de da da de 


|| 
i 
a 

| 


OO ORRRR 
SSOSOSCOOHHHEH 
SOeOSCSOCOCOOHRHHH 
SSSCCOOHRHHH 
SOooHrHHooocS 
SCSOSOHHHOSOSCS 
SCOoOoHHHOSCSCSO 
lh — hh — hh — 
tl el I 
LL IK — I — eK 
_——— E) 
SESS SSS 


Folosind această tehnică de descompunere, matricea de similitudine 
poate fi scrisă sub formă cvasidiagonală : 


A jF 0 0 3] 
Li. | Suie 10 
„IRI 0-20. [ii nO 2780 
S = 
ie Sao 20 
0 .0 AR 
0 a k 


unde Sı, S,,..., 8, sînt submatrice pătratice. Fiecare submulțime 

S, reprezintă o familie de descriptori si o vom numi matrice de 
| familie. Această matrice poate fi transformată într-o matrice de 
| tranziție P astfel incit fiecare element p, este nenegativ și suma 
și tuturor elementelor unui rînd este egală cu unitatea. 


Dacă matricea de familie este 


ji Su Sig + +> Sir 
Sa Son e>. S 
S, =| 52°22 2r 


| 
a 

| Sr Sea +++ §,, 
v 


| 
| 
| 
f 
| 


PNM a ce, 
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Alo atunci matricea de tranziție P, corespunzătoare acesteia va avea 
elemente 


N 8y 


Py ail ee , 
È $u 
j=1 


Putem interpreta astfel fiecare element p, al matricei de tran- 
zitie ca probabilitatea de trecere de la descriptorul 7 la descriptorul 
j in familia 7. 

Cu această interpretare probabilistic’ a similitudinii într-o 
familie mare, familia are toate caracteristicile unui lant Markov. 
De aceea pentru matricea P există un vector unic w = (Wi, Was ..., W,) 
astfel încît wP = w gi w, >0 pentru 1<i<r. 

Fie ©, o matrice de familie r x r, P o matrice de tranziţie 


dine r xr si 2 un vector linie r-dimensional a cărui componentă i este 


r 
2 = YJ Sue 
jal 


Atunci zP este un vector linie r-dimensional a cărei componentă 
tp 
a este) s,,. Deoarece matricea de familie S, este simetrică, Su = S, şi 
j=1 
z P =z. Vectorul w are deci componente - 


% 


w, = — 
Da 


î=1 


"Acest vector indică faptul că familia este mai des în anumite stări 
decât în altele. Cu alte cuvinte descriptorii cu valoare mare în + 
ocupă poziţii centrale in familie. 

Pe baza acestor considerente apare clar faptul că mulţimea 
descriptorilor unui sistem de regăsire poate fi controlată în interiorul 
unei familii. 

În concluzie, documentele pot fi caracterizate numai cu descrip- 


torii centrali ai familiei şi considerind toate familiile se poat 
substanțial lungimea înregistrărilor. Die re sue 


5 — 0, 463 
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3.7. OBSERVAŢII BIBLIOGRAFICE 


Maron [95], [96], [98] a utilizat primul factor de similitudine, 
iar Stiles [183] și Doyle [36 | au indicat extinderea automată, a cererii 
de selecţie prin asocierea descriptorilor similari. Stiles a propus 


factorul 
(yf = fu, — SPS 


(7) sr =l Sana 
(e re Jaf, (f — f) (f — fi); 


unde 

f este numărul descriptorilor, f, numărul înregistrărilor cu 
descriptorul i, f, numărul înregistrărilor cu  descriptorii + gi j, 
folosind distributia Pearson gi valorile marginale ale tabelei de 
contingenta 2 x 2 gsi corectia Yates pentru esantioane mici. 

Un amplu studiu comparativ al tuturor factorilor de similitu- 
dine bazati pe frecventa de coaparitie a descriptorilor, experimen- 
tati pind acum este facut de Jones si Curtice [69], Soergel [173], 
Becker si Hayes [12]. 

O nouă clasă de factori de sinonimie este propusă de Lustig [91]. 

Măsura similitudinii folosind noţiunea de context a fost pro- 
pusă de Lewis [87]. 

Edmunson [38] a propus un model topologie al sinonimiei. 
El consideră că sinonimia este o relație între cuvinte si anume o 
relație reflexivă, simetrică si tranzitiva. 
: Daca se notează yS,x faptul că cuvîntul y este sinonim în sensul 
Su cavint æ, atunci se poate defini clasa 7 de sinonimie a cuvin- 
ului 4 ca 


sı (2) = {y ly 8, 2). 
Această definiție poate fi extinsă la o mulțime arbitrară Æ de cuvinte 
sı (E) = {y | [3x] (08 NYS, 2). 


Vecinătatea N, (2) a cuvîntului w este definită ca o submulțime a 
clasei de sinonimie a cuvîntului % care conține de asemenea pe 2, 


ae Nw) E 8(2). 


Atunci vocabularul are o topologie de vecinătate. 
Ideia reducerii vocabularului se datorește lui Hillman (63). Des- 


compunerea matricei de similitudini este efectuată după metoda 
lui Harary (57). 


Des- 
etoda 


ORGANIZAREA 
COLECȚIEI 


În sistemele de prelucrare a datelor, extragerea informaţiei 


din memorie se face identificînd acea regiune a memoriei care conţine 


informaţia, adică identificînd o adresă. Fiind înregistrate cuvintele 
day da, ..., a, la adresele by, ba, -.:,8,, comandind o adresă d, se 
extrage cuvîntul a,. 

Sistemele de regăsire a informaţiei, de care ne ocupăm, trebuie 
să rezolve problema inversă : furnizarea adreselor în urma compara- 
tiei dintre o cerere de selecţie şi informația stocată. Pentru aceasta 
sînt indicate memoriile cu, conţinut adresabil la care comparatia 
este făcută fără să fie necesare adrese, adică comenzi de căutare 
pentru fiecare înregistrare. | i 

Numim colecție totalitatea înregistrărilor existente în memoria 
sistemului. Numim interogare procesul de identificare a locului unei 
înregistrări în colecție. Operația de bază într-o interogare este com- 
paratia între informația din memorie gi informația din cererea de 
selecție. 

Dacă interogarea se face succesiv pentru fiecare înregistrare, 
atunci colecția se zice cu căutare secvenţială. Dacă interogarea 
se face simultan asupra tuturor înregistrărilor, atunci colecţia se 
zice cu căutare paralelă. 

Dacă construcţia memoriei este astfel ca la fiecare interogare 
să se folosească toţi descriptorii, memoria se numește tip catalog. 
Memoriile la, care se efectuează căutarea paralelă folosind o selecție 
arbitrară a descriptorilor se numesc asociative. 
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41. SISTEME CU CĂUTARE 
SECVENTIALA 


Fie r înregistrări inmagazinate în ordine aleatorie și intero- 
gate secvențial. Căutăm valoarea medie a numărului de interogări 
pentru a se obține h înregistrări specificate. j nE 

Pentru a se obține o înregistrare din h înregistrări specificate, 
h <r, se parcurg în medie f înregistrări, 


f= 5 g P(9)- 


Considerăm cazul h = 2 şi enumerăm valorile medii ale numă- 
rului de înregistrări interogate pînă la găsirea uneia din cele două 
înregistrări specificate. Presupunem că am parcurs o înregistrare, 
adică g = 1. Probabilitatea ei este 2/r si valoarea medie 


1p (1) =12. 
r 


Dacă am citit două înregistrări (g = 2), probabilitatea primei inregis- 
trări de a nu fi cea dorită este 1 — 2 » iar probabilitatea celei de-a 
ip 


doua inregistrari de a fi cea dorita este 


a Evenimentele fiind 
Ps 
independente 


2 p0) = 2(1——)( á j= = lal 
r}\r—1 r r—i 
În mod similar, dacă am parcurs trei înregistrări, 
20) =3(1 2) (1 - 2 í 2 ee Sad 
r r—ij\ir—2 r r—ir—2 
Prin inducție, pentru g înregistrări se obține 
r—2r—3r—Ar—5 r—g 2 


g plg) =9 


r r—lr—2r—3 Eea g= 
_ pg = 2)" —4)! _ 29(r — 9) 
(r—1—g)!r! r(r — 1) 
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f x 2gr 272 r? 4r aa ar A tari Aae, 
ăi Arr — re) rr— 1) 3r(r — 1) 3 
deoarece primul termen al sumei reprezintă suma primelor r numere 
ate, întregi, iar al doilea termen reprezintă suma pătratelor primelor r 
numere întregi. 
La fel se demonstrează că pentru cazul h = 3 trebuie parcurse 


în medie ~ aes inregistrari. 
mà- A : = Sake A 
loud Astfel numărul mediu de înregistrări parcurse cînd se caută 
în r înregistrări o înregistrare oarecare din h înregistrări specificate 
este 
X r+i 
A+1 


4.2. METODE DE SCURTARE 
A TIMPULUI DE INTEROGARE 


Am văzut că pentru a selecta o înregistrare din 7 trebuie inte- 
rogate în medie (r + 1)/2 înregistrări. Timpul cerut pentru selecție 
este proporţional cu produsul dintre numărul mediu de înregistrări 
interogate şi viteza de citire în memorie. Tinind seama de faptul că 
o înregistrare are circa 1 200 de caractere şi că pe un disc citirea 
a 2 800 de caractere se face în circa 0,05 s, rezultă un timp mediu 
per înregistrare de 0,02 s. Pentru o colecție de numai 10 000 înregis- 
trări sînt necesare în medie 100 s pentru selecţia unei înregistrări 
z specificate. Acest timp este inacceptabil pentru un dialog om — 

maşină. 
Căutarea secvențială a colecțiilor mari devine imposibilă acolo 
unde se cere un răspuns în timp real. 
= Pentru eliminarea dezavantajelor colecţiilor cu căutare secven- 
| țială s-au propus cîteva soluţii. Există astfel trei metode fundamen- 
tale de organizare a colecţiilor : metoda dicționarului, metoda listelor 
si metoda clasificării. 
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Un dicţionar este similar unui fișier. O înregistrare in dictionar 
conţine descriptorul în notatie alfabetică şi adresele tuturor docu- 
mentelor pe care Je indexează. Căutarea în dicționar înseamnă să 
se ia descriptorii din cerere și să se obțină o listă cu adresele în care 
apar aceşti descriptori. Prin acest procedeu se selectioneaza numai 
înregistrările potential pertinente ignorind restul colecției. 

Dicţionarul are totuși cîteva dezavantaje, unele chiar foarte 
importante. În spatele fiecărui descriptor nu poate fi memorată 
fiecare înregistrare, ci numai adresa într-o memorie unde înregi- 
strările sînt înmagazinate integral. Unii descriptori cu sens larg 
sînt fixati la multe înregistrări, ceea ce conduce la o creştere inac- 
ceptabilă a mărimii dicționarului. De asemenea menţinerea dictio- 
narului este foarte grea. Cînd se adaugă noi înregistrări, adresele 
descriptorilor şi înregistrărilor complete trebuie să fie intii extrase 
şi sortate în ordinea descriptorilor. Deci adăugirile nu se pot face 
simplu prin lipire la capătul - dicționarului, ci prin distribuire și 
intercalare. 

Este evident că un dicţionar se completează cu o colecţie serială 
şi s-ar părea indicat ca sistemul să le menţină pe amîndouă : înre- 
gistrările într-o colecţie serială şi descriptorii principali într-un dic- 
tionar care să fie folosit ca index la colecţia serială. In acest caz 
spunem că dictionatul organizează colecţia serială conform unei 
cereri de selecţie. Această formă duală de organizare impune însă 
două restricţii. Mai întîi trebuie menținute două depozite. În al 
doilea rînd cele două depozite trebuie păstrate în fază. Orice schim- 
bare într-un depozit trebuie să fie reflectată precis într-o schimbare 
în celălalt. 

Restrictiile impuse de menţinerea a două depozite pot fi eli- 
minate păstrînd avantajele depozitului dual prin folosirea unei 
tehnici de listă. În acest caz un index indică ultima înregistrare aso- 
ciată unui descriptor. Această înregistrare conţine adresa urmă- 
toarei înregistrări avînd acelaşi descriptor şi astfel printr-un lanţ 
de trimiteri sau printr-o listă se ajunge la cea mai veche înregistrare. 
În felul acesta există atitea liste citi descriptori şi fiecare înregistrare 
aparţine unui număr de liste, una pentru fiecare descriptor folosit 
să o reprezinte. Acest procedeu pare economic, deoarece nu pretinde 


Nar 
OCU- 
b să 
care 
Mai 


arte 


rată 
egi- 
larg 
nac- 
tio- 
sele 
rase 
face 
e și 
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memorarea unui dicţionar. Totuși trebuie prevăzut spaţiu în memori 
pentru adresele lanțurilor, Deoarece numărul inregistrivilor depi- 
geste numărul descriptorilor, practic nu se salvonză spapin. 

Fie că este vorba de o colecţie dictionar, fio că este vorba 
de o colecţie organizată in liste, căutarea porneşte de la o adrosh : 
adresa, listei. Această adresă este tocmai descriptorul din cerere 
de selecţie. 

Deobicei descriptorul este înregistrat alfanumeric, iar mulțime 
descriptorilor sistemului este ordonată. Numim arhivă o mulțime 
de descriptori ordonată. Pentru a găsi o adresă, căutarea începe la, 
jumătatea arhivei marcînd înregistrarea găsită acolo. Dacă valoares 
găsită este mai mare sau mai mică decit cea căutată, căutarea se 
va muta respectiv in jos sau în sus cu o pătrime de arhivă, apoi cu 
o optime etc., pînă cînd s-a găsit descriptorul dorit sau pind 
cînd a rămas un segment atît de mic, încît devine economică căutarea 
secvenţială. După b partiţii cînd a rămas de examinat; numai un 
singur descriptor, arhiva de n descriptori a fost tăiată în jumătate 
de b ori, deci 


` 


gi numărul de interogări este 
b = log, n. 


Avantajul ordonării este evident, deoarece fără ordonare o in- 
terogare secvențială ar pretinde b = (n + 1)/2 interogări in 
medie. i ; 
i Pentru a ilustra metoda de stabilire a unei adrese, considerăm 
o arhivă cu n descriptori memorată pe discuri cu o capacitate de 
k înregistrări pe pistă si k piste pe disc. Memoria va avea deci n/k? 
discuri. Presupunem că arhiva este aranjată pe un cîmp alfabetic 
cu lungime de 10 caractere, in care fiecare caracter are aceeaşi pro- 
babilitate şi că valorile cimpului sînt unice (adică doi desoriptori 
nu au aceeaşi valoare a cimpului). 


72 SISTEME DE ÎNMAGAZINARE ȘI REGASIRE A INFORMAŢIILOR 


Căutarea se poate face direct asupra arhivei pe care o notăm 
A, sau prin intermediul unor indexuri numite arhive de in- 
dexare. 

Arhiva de indexare A, are n înregistrări, una pentru fiecare 
înregistrate a arhivei principale Ag. Fiecare înregistrare în A, repre- 
zintă o adresă a cîmpului de 6 cifre binare (două pentru numărul 
discului, două pentru numărul pistei şi două pentru înregistrarea, 
în pistă) a înregistrării în arhiva principală Ag, însă adresa nu va fi 
înmagazinată explicit. Cînd am găsit înregistrarea dorită în Ai 
vom folosi poziția ei sau numărul de secvență în arhivă pentru a 
găsi adresa în arhiva principală, salvind memoria necesară pentru 
a înmagazina adresele înregistrate in Ay. 

Pentru a căuta în indexul A, este creat un alt index A, care dă 
adresa exactă a primei înregistrări in A, pentru fiecare trigramă pre- 
zentă în arhivă. 

Indexul A, conține 263 înregistrări, de trei caractere plus o 
adresă de 4 sau 6 caractere. Lungimea adresei, în acest caz, este 
o funcție de cît spațiu de memorare este fixat şi dacă, de exemplu, 
o nouă trigramă începe totdeauna într-o pistă nouă. 


Un al treilea index A, dă adresa in A, a primei înregistrări 
care să înceapă cu o nouă literă inițială. 
Acest index constă din numai 26 de adrese de 4 sau 6 caractere 
gi va fi căutat înscriind litera inițială a unui descriptor într-un index 


de calculator sau registru de modificare a adresei şi regăsind direct 
adresa corespunzătoare in A,. 


Funcționarea acestui grup de indexuri este ilustrată in fi- 
gura 1. Aici un descriptor dintr-o cerere de selecţie constă dintr-o va- 
loare de cîmp CQTDACRSBJ. În prima etapă, litera iniţială este folo- 
sită pentru a localiza a treia, înregistrare în A. Această înregis- 
trare conţine adresa primei intrări în Á» începînd cu litera C. 
Pornind de la această adresă se face o căutare binară in domeniul 
C, localizind in final o înregistrare care conţine primele trei litere 
ale descriptorului, CQT şi o adresă în A, la începutul tuturor in- 


registrărilor CQ T. Această adresă este folosită pentru a localiza 
prima intrare in A, începînd cu CQT. In final se face din 


w R 

fam, x 

in- A adresă adresă 
B adresă adresă 

are SE astă iz 


adresa 
adresă 
adresă 
adresă 
adresă 
adresă 
adresă 
adresă 
adresă | --=-----®>---- f 
adresă r A as 


ABA adresa 
AZA adresă 
adresă 


COTDACRSBJ 


s v 
adresă 


AIRISTO S 


` adres 
adresă 


Fig. 1 


CQTDACRSBJ. 


pentru a găsi poziția in Ay. 
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nou o căutare binară pentru a găsi toată valoarea căutată 


În această etapă nu e nevoie să se găsească explicit o adresă 
pentrucă dacă se ştie locul in A, se poate folosi această, informaţie 


Numărul exact de interogări efectuate este necunoscut de- 
pinzind de numărul de înregistrări în A, care încep cu C şi de numărul 


olo- de înregistrări in A, începînd cu CQT. 

gis- În felul acesta există o interogare în A;, cel mult log,263 inte- 
C rogari in A, (se știe locul literei iniţiale şi se caută prin maximum 

LA 26 x 26 litere secundare si terțiare cu metoda, binară) si log, n/263 

aiul interogări în A,, cele n înregistrări ale lui A, fiind împărțite de A, 

ere în 263 subgrupe cu loc cunoscut. În A, se face numai o căutare. 
în- În total se efectuează logan — log,26 interogări. 

jiza : Metoda ilustrată mai sus presupune că sînt cunoscute toate 


ain valorile descriptorilor. 
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Este posibilă si o metodă cînd se cunoaşte numai valoarea 
descriptorilor în prima înregistrare a fiecărei piste. În acest caz 
se foloseşte numai arhiva A, împreună cu Ag, ambele avînd lun- 
gimea n. In A, se efectuează log.n/k interogări, iar în A, log,k inte- 
rogări, deci în total log, n interogări. O altă metodă presupune că 
se cunoaşte valoarea descriptorilor în prima listă a primei piste a 
fiecărui disc. Si în acest caz se folosesc arhivele A, gi Ay, A, cu nfk 
elemente, iar A, cu n elemente. În arhiva A, se efectuează log, n/k? 
interogări, iar în arhiva A, log, k? inţerogări, deci in total log, n 
interogări. 

Se observă că se ajunge aproape la acelaşi rezultat prin toate 
cele trei metode care folosesc un index şi căutarea binară. 


4.2.1. Organizarea în listă 


Scopul acestui paragraf este să prezinte unele efecte ale carac- 

teristicilor colecției organizată în liste asupra timpului de selecţie. 
În figura 2 se arată organizarea unei memorii în liste de înre- 

gistrări legate. s 

Fiecare listă corespunde unui descriptor şi toate înregistrările 
caracterizate de acel descriptor corespund unui nod pe listă. Dacă 
un document este caracterizat de cîțiva descriptori, înregistrarea 
este reprezentată de un nod care este intersecția listelor corespun- 
zînd descriptorilor respectivi. În figura 3 se ilustrează schematic 
structura unei înregistrări şi anume înregistrarea 2 din figura 2. 
i! Această înregistrare corespunde unui document caracterizat 
de descriptorii dı, da si da. Deci nodul corespunzător acestui document 
este pe trei liste şi anume listele d,, de și da. În acest caz nodul mar- 
chează sfîrşitul listei d, şi precede imediat înregistrarea 7 pe lista 
d, sau înregistrarea 6 pe lista d}. 

Notăm cu t, timpul de acces al memoriei, adică timpul necesar 
pentru a transfera un bloc de cuvinte din memoria externă în me- 
moria internă a calculatorului, cu n numărul descriptorilor siste- 
mului, adică numărul cardinal al mulțimii D şi cu f(j) numărul 
înregistrărilor care contin descriptorul d,. 


ee i 


Ong BES peer es a 
nete Pta DEG ARTT 
ia 
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Descriptor’ taregistrari asociate 
te 
Oz atit NEX X7 
qs » RRND 
04 X3 X4 X5 Xp 
a5 X3 X5 Xe X7 
Fig. 2 


În structura listei d, există f(j) noduri. Spunem deci că lista 
d, are lungime f(j). 

Timpul cerut pentru a regăsi toate înregistrările pe o listă 
de lungime f(j) este f(j)t,. 

n cele ce urmează se presupune că fiecare înregistrare ocupă 
numai o locație. În caz contrar, pentru noduri care reprezintă înre- 
gistrări lungi ar fi necesar mai mult decît un acces la memorie. 
? analiză mai completă ar trebui să țină seama, de efectul mărimii 
ocatiei. 

Vom căuta acum o expresie pentru timpul necesar regăsirii 
tuturor înregistrărilor corespunzătoare unui 
descriptor dat. 


Fie s numărul total de apariţii al tu- 
turor descriptorilor sistemului. Atunci 


¢= % f(). 


PITRE, cope 
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Presupunem acum o cerere de selecție formulată cu un singur des- 
criptor şi fie p(j) probabilitatea ca cererea să conţină descriptorul j. 
Atunci timpul mediu de selecție per descriptor este 


=t, © fi) 20). 


Funcţiile f(j) şi p(j) sînt necunoscute sau dificil de determinat, 
depinzînd de natura informaţiei în colecție, de metoda de indexare, 
de faptul că au fost suprimati descriptorii cu frecvenţă foarte mare 
sau foarte mică etc. 

În analiza ce urmează vor fi făcute trei presupuneri asupra 
funcţiilor f(j) si p(j), deoarece cele mai multe combinaţii ale acestor 
funcții întâlnite in practică se găsesc între aceste limite. 

În primul caz se presupune că funcţiile f(j) si p( 4) sînt distribuite 
uniform și sînt constante pentru toţi j. Atunci 


i s 
=g. 
ae! 
BG) ian? 
astfel că 
ih s 
T = T e 


Raportul ¢,/t, este timpul de răspuns normalizat. 

| Raportul s/n va depinde de numărul total de documente inde- 
ii xate şi de tehnica de indexare folosită. Variația acestui raport pentru 
H o colecție tipică este dată în figura 4. 


„Fie j rangul descriptorului, descriptorul cel mai frecvent 
folosit fiind considerat de rang 1 etc. În cazul cînd doi sau mai 
mulți descriptori au acelaşi rang, li se fixează arbitrar numere con- 
secutive. 

_ _ Reprezentarea funcţiei de frecvență f(j) pentru o colecţie 
tipică este arătată în figura 5. 

Pentru comunicațiile scrise au fost propuse diverse expresii 
pentru a reprezenta analitic relaţia rang-probabilitate. Legile lui 
Zipi și Mandelbrot sînt cele mai cunoscute. Așa cum a fost formulată 


| 
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af 


es- à . . . » ` È 
lj. iniţial legea lui Zipf ea se aplică la texte scrise in limba engleză 
şi este dată de expresia 
PU) = 013 
| În acest caz suma probabilităților tuturor cuvintelor este 1 numai 
at, 5 
ire, FI 
are i 
pra 2 
tor 10 
lite 7 


frecvența Fj) 


0 50 100 10 200250 o 


Numirol inregisirsinlor r » DD rang 


Fig. 4 Fig. 5 


cînd vocabularul are 8 727 cuvinte. Deoarece in cazul sistemelor 
de regăsire numărul descriptorilor este cunoscut, o lege moditicată 
se obţine uşor, considerind forma generală a legii 


as p(5) = kj 
tru gi calculind coeficientul k cu constringerile 
rent Dy JI) =s, 
mal jel 
con- n 
D v9) =1. 
cpie ya 
Pentru n mare aproximarea 

sii "4 j 

Joi D Shneta, | 


lată mi J 
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Hi oe c este constanta lui Euler (0,5772), dă o eroare de 2% poniru 
= 10 si 0,06% pentru n = 100. 
A doua presupunere pe care o facem este că funcţia f(j) urmează 
legea lui Zipf, adică 


i s 


| FG) Ro 
Fiindcă suma probabilităților trebuie să fie 1 urmează că 
| 1 
pj) = 


i 4 (Inn +c) 
ii În figura 6 se arată o reprezentare normalizata a funcției f( 


| pentru o colecție tipică. Ă 
Dacă f(j) urmează legea Zipf şi p(j) este uniform 


n a al 
t È Ji ) a) =i D a eal 
adica 
os soi 
t n 


Se observă că timpul mediu de răspuns este același cu cel din 
cazul precedent. 
În cazul celei de a treia presupuneri ambele funcții eee 
legea Zipf şi 
si sa L 


8 


— (nn +o A j? 


Fiindcă seria 1 + 1/4 + 1/9 + 1/16 + ... converge rapid si 
m este considerat mare, valoarea sumei poate fi luată pentru o serie 
infinită, adică 
ee 128 
i 6 (Inn + ok x 


Eroarea produsă prin înlocuirea sumei $, 1/j2 prin 72/6 este de 
j=1 


2% pentru n = 30 şi de circa 0,6% pentru n = 100. 
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ru 
i Raportul celor două valori t,/t, obţinute cînd p(j) este uniform 
ză Și cînd p(j) urmează legea lui Zipf este 
| NT? 
W es 
6(In n + ¢)? 
arătat în figura 7. 
că, Se vede că comportarea Zipt a funcției p(j) poate conduce la 
1000 
wW 
l Zp zale 
( 1000 x egea Lipi Jln) 100 
---- Curba experimentald 
100 
10 
10 
at GOP set LO ans PI 
frecven/a nominalizată = Vumarul descriptorilor n 
Fig. 6 ; Fig. 7 


creşterea timpului de răspuns. Într-o situaţie reală funcţia, p(j) va 
avea o comportare cuprinsă între limitele cazului uniform şi cazului 
Zipt. Deci timpul de răspuns va fi cuprins între valorile s/n si ws/n. 

Într-o primă aproximaţie, cerinţele de memorie ale unei liste 
depăşesc pe cele ale unei colecţii secvențiale numai datorită cerin- 
telor pentru legături. Dacă includem simbolurile de terminare ale 
listei atunci vor exista s astfel de legături. 


4.2.2. Organizarea în dicţionar 


În cazul în care colecţia este organizată în dicționar, fiecare 
descriptor reprezintă adresa unei liste care de data aceasta este for- 
j mată din adresele tuturor înregistrărilor ce reprezintă documente 
de | caracterizate de descriptorul respectiv. 


În acest paragraf pentru acest mod de organizare se va analiza 
o relație între timpul de regăsire si parametrii de proiectare ai colecţiei. 
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De asemenea va fi analizată o măsură a eficienţei de folosire a me- 
moriei, fiindcă în acest caz este posibil să se proiecteze un sistem 
în care spaţiul de memorare alocat nu este folosit integral. ; 
Fie o numărul de adrese care pot fi inmagazinate într-o locaţie 
a memoriei, adică capacitatea locației. ; 
O listă asociată cu un anumit descriptor poate să conţină 
mai mult decît c adrese şi în acest caz lista trebuie extinsă peste 
citeva locaţii. Invers, dacă există cîteva liste scurte, ele pot fi ,,impa- 
chetate”? într-o singură locaţie. Dacă această impachetare nu este 
făcută porţiunea de locaţie nefolosită constituie un spațiu pierdut, 
O adresă poate fi formată din m caractere şi cerința minimă 
de spațiu de memorare este produsul dintre numărul total de adrese 
şi spațiul de memorare al unei adrese. Notăm cu sm acest produs. 
Fie v, memoria totală cerută pentru înmagazinarea dictiona- 
rului incluzind memoria pierdută. Atunci o măsură a utilizării 
memoriei, care este egală cu zero cînd nu apar pierderi şi egală cu 
unitatea, cînd se alocă dublul spaţiului faţă de cel strict necesar este 


sm 


Acest factor reprezintă măsura care indică reduceri potențiale 
de cerințe de capacitate de înmagazinare, reduceri ce se pot obţine 
prin ,,impachetare’’. 

În această organizare, parametrii cei mai importanți sînt 
numărul n de descriptori şi raportul s/e dintre numărul tuturor apa- 
rifiilor descriptorilor şi capacitatea, locației. 

Cu ajutorul acestor parametrii se pot obţine expresii cu care 
pentru o colecţie dată să se determine aplicabilitatea, organizării 
în dicţionar. Aceste expresii pot ajuta, şi la alegerea unei anumite 
mărimi a locației cu toate că această mărime este determinată 
de echipamentul folosit. Factorul de utilizare al memoriei h poate 
fi folosit la luarea de decizii privind împachetarea. 

În figura 8 se ilustrează schematic un exemplu de fixare în 
memorie fără împachetare. 


În această figură există n descriptori şi deci n liste inversate. 
Cea mai lungă listă are elemente care cer mai mult decît 40 însă 
mai puţin decît 5c unităţi de memorie, astfel că pentru această 
listă, sînt fixate 5 locaţii. Rangul celei mai mici liste inversate care 
cere mai mult decît o locaţie este notat cu n*. În anumite cazuri 
considerate in cele ce urmează n* va fi legat direct de parametrii 
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2 fundamentali n şi s/c, fiind util în dezvoltarea expresiilor ce leagă 


n aceşti parametrii de performanţele sistemului. 


astfel, pentru a regăsi o singură listă 
care să acopere cîteva locaţii va fi ne- 
voie de mai multe accese t,. 

Notind cu fy] cel mai mic întreg 
mai mare sau egal cu y si cu |y] cel 
mai mare întreg mai mic sau egal cu 
y, din figura 8 se poate vedea că me- 
moria totală v, fixată pentru listele 
inversate cînd nu este făcută nici o 
împachetare este 


v, = me È aah 


Cel mai mic timp de răspuns pentru 
o memorie este egal cu un timp de 


: În figura 8 spaţiul de memorare pierdut este reprezentat; de 
| intervalul dintre liniile pline şi cele punctate. Se observă că acest 
| spațiu poate îi redus micgorind capacitatea c. Totuşi, procedind 


A) 


eS 


pan 


Numărul de blocuri 


acces t,, iar valoarea minimă a fac- 1 n* Pad 

torului de utilizare h apare cind nu fangu! ceseniplorulu j 

se pierde nici un spațiu de înmagazinare. E 

Aceste două restricții pot fl formulate £ 

astfel ; 

=> 1, 
re ) t, 
rii | h>0. 
te ; 
tă | Cu relaţiile de mai sus h poate fi scris astfel: 
te n PR E 
p= 23 Oa. 

in S$ j=l (zi 

Cum expresia din sumă nu poate fi mai mică decît unitatea, suma 
e, | nu poate fi mai mică decît n. 
să Această constatare permite să se impună o a doua restricţie lui A: 
ta 
re hone —1. 
ri s s 
ril 


6, — c, 463 


: fr zi 


pi patern i 
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Pe A ; ti 
Pentru a scoate o listă inversată din memorie se cere un acces pentr 
fiecare locaţie astfel că timpul mediu de răspuns este dat de expresia 


n =1 $ [P po) 
j=1 | C 
Presupunind că f(j) si p(j) sînt uniforme 


A 8 
fG => 
N . 
pj) ==» 
Și 
t, a fe ll 


În acest caz 


Leis it £) 
Sa-l, 

n t, nC 

c 

0<h<n-. 

8 


Datorită restricţiilor h > 0, h > no — 1, relaţia de mai sus devine 
8 


e 
n—-—-loh< ne. 
s 8 


În felul acesta au fost stabilite limitele factorului h în cazul uniform. 
n figura 9 este prezentată variatia raportului ¢,/t, în funcție 


de n pentru diverse valori ale raportului s/c, iar în figura 10 este 
prezentat h. i 


Liniile exterioare notate „uniform” corespund cazului discutat 
mai sus. Totdeauna cînd f(j) este uniform, poate fi minimizat 
selectind o mărime a locației astfel ca ¢ — s/n. Fiindcă alegerea 
lui ¢ este limitată de echipamentul fizic, nu totdeauna poate fi posibil 
84 se găsească o valoare optimă într-o situație specifică. 
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_ _ Presupunem acum că p(j) este uniform și f(j) urmează legea lui 
Zipf. Atunci 


$ 
jn n + k) 


JI) 


Max t(j) 
unitorm 


10° 


Numarul deseripterilor a 


Fig. 9 


eee aes 


84 SISTEME DE ÎNMAGAZINARE ȘI REGĂSIRE A INFORMAŢIILOR 


Ecuația conduce la aceleaşi 
cînd f(j) era uniform, adică, 


L 
n 


În cazul pe care îl analizăm 
pot fi obținute limite mai fi 


limite pentru t,/t; ca în cazul precedent 


pentru o anumită bandă a parametrilor 
ne. Mai înainte a fost definit si ilustrat 


EN 


Don 


Dn 5 


ilor 
trat 


| 
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în figura 8, n*. Din expresia 


fj) = — 
jln n + k) 
se obține 
S 
Pee c A 
cita | CR +k 


În toate expresiile in care apare n* este presupus că 


1 be Se 
În ecuaţia, 


= SO 20 


j=1 


pentru j >n*, = = 1 şi atunci 
e 


lessen ll = 20%) 

iat — ——_ |] + n — n*]. 

n A c j(lnn + k) 

Această expresie permite stabilirea unor limite cînd n îndeplineşte 
condiţiile de mai sus : 


to ii 21 k t =: 1 W 
E Pe ea Pe 2 =|) at 
“ile need n*) + S Alp Tn op 214 v 


În general suma 5 1/j nu poate fi exprimată într-o formă aproxi- 


j=1 


mativa închisă deoarece despre n* se ştie numai că se găseşte între 1 
gi n. În evaluarea numerică a expresiilor pentru limitele lui » sau 
t/t, suma, este aproximată oricind este posibil. In figura 9 sînt 
arătate valorile selectate ale parametrilor. 

Calculul factorului de utilizare a memoriei h prin substitutia 
formei Zipf a funcției f(j) conduce la aceeaşi ecuaţie ca şi în cazul 
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i cînd f(j) a fost uniformă, Cind pentru j >n* se aplică | = 1, 


| | rozultă 


| Limitele obţinute din expresia de mai sus sint ilustrate in 
if figura 10, Ele sint 


1 szl; 


0 L 
poe = E =- — 1. 
eae ae x; 


8 Inn + ka] 


= (nm — mt) << 


Presupunem acum că atit functia p(j) cit gi funcţia f(j) urmează 
legea lui Zipf. Expresia lui h va fi aceeaşi fiindcă numai p(j) s-a 
schimbat și h nu este funcție de p(j). In acest caz timpul de răspuns 


este | 
fe arie 
t lo nn+kj|nn+hkj 


Aproximind. 5 1/j? cu z?/6 ca mai înainte se obţin limite 


foul 
ale raportului t/t, valabile pentru toţi n cu restrictia t,/t, >1 


t, 


-F 
t <2 inn +h- n. 
4, “o 6 


2 (in n + bye 
6 6 


Ca gi mai înainte, cînd 1 <n* <n pot fi gasite noi limite. 
Deoarece pentru j >n*, 


f 1 | 
D= 
0 Inn+kj 


‘| 

i rezultă, 

iq t, 1 a 1 AF acel | 

M La o = |= + ne 
i t, AAA elnn+kjlj no I er 
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1, şi deci 
s REI O t, 
-nn +a $ (5—2 (inn + v) ine E 
c fel j? 8 t, 
8 nra 
<-(lnn +k) Y = +1. 
e j=1j? 
in În figura 11 este arătată comportarea raportului t/t, în cazul 
cînd f(j) şi p(j) urmează legea lui Zipf. Mai jos vom considera alegerea 
10% 
w tr 
ză ty 
-a = 79 
me £= 
707 
= 104 
102 
Maximum 
$= 707 
- Minimum 
ie. 10 
$= 10? 
7 = 
70 o 4 
70 10 = 195 
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unei valori a capacității unei locaţii e pentru'o colecţie cu 104 des- 
criptori, în care aceşti descriptori apar de 10° ori. În acest caz n = 
= 10%, s = 106. Pentru diverse valori ale capacității ¢ se pot obţine 
diverse limite ale factorului de utilizare a memoriei și a timpului 
de răspuns normalizat. Cîteva valori tipice sînt ilustrate mai jos : 


h trits tlt; tell 
f Zipt f uniform f Zipf f Zipf 
P p uniform p uniform p Zipf 


h 
f uniform 


100 1,0—0,0 0,7—0,6 2,0—1,0 1,8—1,7 170—170 
200 2,0—1,0 1,7—1,6 1,5—1,0 1,3—1,3 87—86 
300 3,0—2,0 2,7—2,6 1,3—1,0 1,2—1,2 58—58 
400 4,0—3,0 3,6—3,5 1,2—1,0 1,2—1,1 44—43 
500 5,0—4,0 4,6—4,5 1,2—1,0 1,1—1,1 35—35 


Cele două coloane h pentru comportarea uniformă şi pentru com- 
portarea Zipf a funcţiei f(j) indică spaţiul potenţial pierdut dacă nu 
este realizată impachetarea. În celelalte trei coloane este arătat 
efectul lui c asupra timpului mediu de răspuns pentru trei com- 
binafii diferite ale comportării funcţiilor f) si p(j). Folosind ecuaţiile 
deduse mai sus gi o presupunere corespunzătoare privind f(j) si 
p(j) se poate selecta o valoare pentru c şi se poate lua o decizie 


privind impachetarea a mai mult decît o listă, inversată într-o 
locaţie. 


4.2.3. Memorii asociative 


„Obiectul oricărui sistem de regăsire este să identifice locul 
unei informaţii dorite, făcînd comparatia între informaţia, stocată 
în memorie şi cererea de selecţie. 


Deoarece sistemele de regăsire în urma, comparatiei furnizează 
adrese, în ultimul timp se încearcă folosirea unor memorii care 
să lucreze după principiul identificării cuvintelor. Acest tip de 
memorie se numește cu adresare după conţinut. 


„Dacă comparatia se face simultan asupra tuturor înregistră- 
rilor memorate, atunci memoria este cu căutare paralelă. Memoriile 
cu căutare paralelă trebuie să aibă deci asociate cu fiecare locaţie 
dispozitive pentru a permite informaţiei stocate acolo să intre în 
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es- 
a comparație în același timp cu informaţia din toate celelalte locaţii, 
ine însă independent de ea, şi pentru a înregistra rezultatul comparatiei 
lui r pentru acea locație. 

S: Procesul de selecție constă din comparatia fiecărui descriptor 


din registrul vectorului cererii de selecție cu fiecare descriptor al 
unei înregistrări stocate în memorie. Indicatori de coincidență indică 
coincidența dintre înregistrare şi cererea de selecție şi efectuează 
citirea datelor indentificate. 
f Dacă construcția memoriei este astfel că la fiecare selecție 
se folosesc toți descriptorii, avem de a face cu memorii catalog. 
) | Memoriile care permit să fie efectuată o selecţie folosind numai 
anumiți descriptori se numesc asociative. 


Pentru acest tip de memorie pentru cererea, de selecţie nu este 
adecvată reprezentarea printr-un vector logic — adică o secvență 
de 1 si 0 — deoarece este nevoie să se specifice poziţiile descriptorilor. 
Cererea de selecţie trebuie reprezentată fie de un vector ale cărui 
componente sînt variabile ternare (1, 0 şi ,,indiferent’’), fie de o 
pereche de vectori logici. Ultima alternativă este cea folosită curent : 
pozițiile descriptorilor sînt date de un vector mască, iar valorile 
descriptorilor de un vector argument. Un zero în vectorul mască 
va indica, că poziţia respectivă nu trebuie folosită la selecţie. 

În figura 12 este dată 
schema bloc a unei memorii 
asociatie. 


Domeniul de stocare 
este reprezentat de o matrice 
M. Fiecare rind M* repre- 
zinta o înregistrare. Matricea 
M are asociaţi trei vectori g, 
m gi s. Primii doi vectori au 
aceleași dimensiuni cu rîn- 
durile matricei şi reprezintă 


Matricea memoriei M 
rxn 
r-rinduri (inregistrări) 


ză registre care conţin argu- n- coloane (descriptori) 
are mentul și masca de selecţie. 
de š Cel de-al treilea vector s, 


numit vector de identificare, 
reprezintă un registru care 
poate fi folosit fie pentru a co- 
manda interogarea, fie pentru 
pe a comanda citirea rîndurilor. Fig. 12 


Registru! vectorului idenlihicare $ 
Memorie auxiliar? de dale 
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O componentă a lui s corespunde fiecărui rind al matricei şi 
cifra 1 în s la sfîrşitul căutării va indica că locaţia corespunzătoare 
este identificată. Pentru a folosi scheme bloc a memoriei din figura 12, 
va fi necesar să specificăm metodele de comparare gi mijloacele 
pentru. stabilirea, vectorului de identificare. De obicei memoriile de 
acest tip au un circuit de comparare în fiecare poziţie de cifră binară. 
Aceasta înseamnă de fapt că valorile componentelor vectorului q 
sînt proiectate prin coloanele lui M şi comparate cu informaţia, 
corespunzătoare. Ca rezultat al acestei comparații se constituie 
o nouă matrice pe ale cărei rînduri să face o operație ulterioară 
pentru a obţine componentele lui s. 

Rindul & al matricei de ieşire după comparare ar putea fi spe- 
cificat*) ca (M*=q) sau complementul (ME Æq) depinzind 
de circuitul folosit. 

n primul caz componenta corespunzătoare a vectorului ‘s 
a fi specificată de operatorul „ŞI” aplicat tuturor componentelor 
rindului 


S-A KM" = 9), 


*) Notafie : Se foloseşte limbajul de programare elaborat de Iverson [68]. În 
acest limbaj toate operațiile aritmetice si logice definite in mod normal pentru 
scalari se extind sistematic la vectori şi matrice. Astfel pentru vectorii a sid si 
orice operatie@relatia c = ab implică că c este vectorul definit de ci = a;0b; De 
exemplu (1, 1, 0, 0) A. (1, 0, 1, 0) = (1, 0, 0, 0). 

In al doilea rind, operatiile logice obisnuite (SI, SAU, ...) sint completate. de afir- 
matii relationale. Dacă a şib sînt cantităţi oarecare si R este o relaţie definită peste 
ele atunci (a R b) înseamnă variabila logică a cărei valoare este 1 dacă există relaţia 
și zero altfel. De exemplu (4> 3) are valoarea 1. 

Expresia (M* Æ q; ) denotă un vector logic,-c, astfel că c; = 1 dacă ME + qi şi 
ci = 0 dacă M; = qi. Dacă MY si q sînt vectori logici, operaţia identitate este un ,,SAU 
exclusiv” între ei, componentă cu componentă. q 

Pentru operații care apar frecvent se definesc simboluri speciale. Astfel ©/a este 
o ,,reducere”’ a vectorului a prin operația). De exemplu, +/(4,9,1)=14,v (1, 0, 1,1)=1 
şi A /(1, 0, 1, 1) = 0. Linia diagonală apare de asemenea intre doi vectori, ca u/a, 
unde u este un vector logic. Aceasta denotă o operaţie de ,,compresie °? care elimină din 
a acele componente care corespund zerourilor din u. Astfel (1, 0, 1, 0)/(4,9, 1, 7) = 
(4, 1). Două alte simboluri de interes deosebit sint la, u, b| şiNa,u,bN,unde aşib sînt 


vectori si u este un vector logic. Aceste simboluri reprezintă ,,mascare’’ şi ,,inter- 
calare” g AU e | 


1(6,7,8), (1,0,1), (3,4,3)/ = (3,7,3) 
N(6,7,8), (1,0,0,1,0), (3,4)\ = (3,6,7,4,8). 


În sfirsit, va fi notat că programele în acest limbaj sint aranjate ca reţele verti- 
cale de afirmaţii cu săgeți auxiliare pentru a arăta ramificarea. ` $ 
O afirmație X<Y se citește ,,X este specificat de Y”. 


A w ~ ni bd A a d 


— 


bd O Cu O 


rti- 
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iar in al doilea caz de operatorul ,,SAU”’ 


S,- VIM # 9). 


În ambele cazuri s, = 1 indică coincidenta vectorului linie 
M* cu vectorul cerere q. 

În cazul cînd se doreşte numărarea componentelor 1 în fiecare 
înregistrare 


8, <— + /(M* = q) 


şi componentele vectorului s pot fi ordonate după valorile s,. 

Sînt cîteva moduri în care poate fi folosită informaţia din 
registrul vectorului m însă în toate cazurile rolul ei este să schimbe 
funcţia care comandă combinarea unei componente din matricea M 
cu o componentă a vectorului q. Astfel în logica de primul tip de 
mai sus, unde 


Ss- ANN = 9), 
masca ar putea fi introdusă după una din următoarele metode: 
(a) s- A/(m/M* = mlg), 
(b) 8 = A /(m|(M* = q)), 
(c) ss A/(\le, m, (m/M* = m/q)\), 
(d) ss A/(/1e, m, (M* = q)/). 


Rezultatul final al acestor expresii este acelaşi, însă fiecare 
metodă sugerează o realizare diferită a echipamentului. În (a) şi 
(b) operatorul „ȘI” se aplică unui număr variabil de componente, 
ceea ce constituie o sarcină grea pentru proiectarea, echipamentului. 
Metoda (a)specifică de asemenea că acolo unde m, = 0 nu are loc 
nici o comparaţie, in timp ce metoda (b) specifică efectuarea de 
comparații asupra tuturor componentelor pentru ca apoi să se 
neglijeze acele componente unde m, = 0. În (c) şi (d) intrările la 
operatorul „ȘI” pot rămîne fixe ca număr, însă conform metodei 
(e) acolo unde comparaţiile au fost inhibate se injectează 1 în timp 
ce, conform metodei (d), comparatiile nedorite sînt sărite. 

Pentru a combina doi vectori conform unei operaţii logice, 
dispozitivul logic folosit trebuie să fie reprodus de un număr de ori 
egal cu numărul de componente al vectorilor. De aceea, operația 
logică este reprezentată ca un vector de operatori. 
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Fie e un vector cu toate componentele 1. Reprezentind opera- 
torul de identitate cu 1 si operatorul de comparatie cu = gi folosind 
produsul lor cu vectorul s pentru a reprezenta vectori de operatori 
ale căror componente sînt în mod uniform 1 sau =, un vector de 
operatori p poate fi specificat ca 


ic Niet, = E 


Vectorul m a fost folosit aici pentru intercalare, adică o componentă, 
a vectorului p este aleasă din le, cînd m, = 0, si din = e, cînd 
m, = 1. Funcționarea unei măști este descrisă deci de un program 
cu două linii, obţinut prin combinarea liniei precedente cu linia, 


Se= ANU pq). 


Acest program sugerează o realizare a echipamentului în care 
masca alege între funcţii disponibile permanente în timp ce operatorul 
» Sl” are un număr fix de intrări în toate condiţiile. 


Aga cum a fost definit un vector de operatori poate fi definită 
o matrice de operatori. 


Mai jos sînt prezentate cîteva programe tipice pentru memorii 
asociative. 

Programul 1 descrie funcţionarea unei memorii cu căutare 
complet paralelă, în care o căutare de egalitate se face totdeauna, 
într-o singură interogare. Acest program se bazează pe o logică 


cu operatori Æ şi V cu toate că în funcţionarea strict paralelă 
operatorii = şi A lucrează la fel de bine. 


1+| q < q* 
2 m< m* 

3 s < le 

4 Q<1lexg 

5 |P<+exm 

6 s < V (MPQ) V s|—> 


Programul 1 


Primele două linii ale programului specitică încărcarea regis- 
trelor q si m cu valorile date q* şi m*. Linia 3 specifică stabilirea 
stării inițiale a registrului de identificare prin injectarea lui s. In 
linia 4 proiecția valorilor componentelor lui q în matricea M este 
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a- 
nd reprezentată printr-o nouă matrice de referință Q ale cărei rînduri 
ri sînt toate identice cu q: În linia 5 cu o operaţie analogă se dezvoltă 
le 7 matricea operator P cu rînduri obținute după m, cu + acolo unde 
| m; = 1 şi cu operatorul identic zero acolo unde m, = 0. În final, 
linia, 6 reprezintă determinarea vectorului s. Se observă că linia 3 
ar fi putut fi omisă gi linia 6 simplificată la 
w i s - V (PQ), 
| 
m însă prin aceasta echipamentul se complică, deoarece este mai greu 
ia, să se injecteze 0 gi 1 într-un registru alb decît să se repună la 1 re- 


gistrul la începutul unui ciclu și apoi să se modifice numai într-o 
direcţie: 

Memoriile cu funcţionare complet paralelă descrise de pro- 
gramul 1 sînt greu de realizat, deoarece elementele memoriei cu 
miezuri magnetice au raport semnal-zgomot foarte mic. Dezavan- 
, tajul este înlăturat dacă memoria lucrează succesiv dupa descriptor. 
În principiu într-o astfel de memorie căutările de egalitate vor fi 
mai lente fiindcă fiecare căutare va cere un şir de interogări. Totuşi 
în acest fel, după fiecare interogare starea vectorului s este dispo- 
nibilă pentru scopuri logice. ; 

Programul 2 descrie funcționarea unei memorii succesiv după 
descriptor folosind același tip de circuite ca şi în: cazul programului 
1 şi un echipament aproape identic. Cele două programe diferă 
însă prin utilizarea vectorului m. 

În programul 1 vectorul m era folosit pentru a modifica aran- 
jamentul statie înainte de realizarea, singurei interogări din linia 6. 
În programul 2 vectorul m este folosit; pentru a comanda secvențial 
interogările după cum este arătat în linia 8. 


"n 


-4 


ib A CPs ah 

2 m< m* 
3 j<0 

4 s< le 
5 Q< le x'q 
6 

7 

8 

9 


+i 


>| jin 
jejtt 
-—| mj: 0 


A | | | s < sv (M; Æ 9) 


in Programul 2 
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Apare astfel o ramificaţie condițională care sare interogarea 
dacă componenta curentă a lui m este zero. 


Programul 3 descrie de asemenea funcționarea unei memorii 
succesiv după descriptor însă după o metodă diferită. Există acum 
o matrice S formată din coloanele matricei M, coloana S, prece- 
dînd coloana M,, iar coloana 8,,, succedind coloanei M, . 


Coloanele matricei S reprezintă vectori de indicație, vectorul 
8,4, fiind echivalent cu vectorul s din programul precedent. 


După cum se vede din linia 9 a acestui program, fiecare vector 
de indicație arată prin zerourile sale acele rînduri ale matricei M 
care au avut cel putin un dezacord cu vectorul q, pînă la acel punct, 
și limitează interpretările ulterioare la acele rînduri care încă concorda. 


>|q<g¢ 

m < m* 

Q<iexg 

j<0 

S,< le = 
>| jin we 

j-j+1 
pa m;: 0 : = 

Sia — Sj NS; (SiM; = Q5) 
10 |_| Sj41< Sj = 


CeoI8Ss of wd = 


Programul 3 


Coloana k a matricei M poate fi mascată mutind înainte starea 
lui 8, în 8,,,, aga cum este arătat in ramificatia de la linia 8 la 
linia 10. Procedeul este identic cu cel aplicat la linia 8 în progra- 
mul 2, in sensul că starea lui 8, după ce a fost interogată coloana 
k, este transmisă mai departe neschimbată dacă m,,, este zero. 
În programul 2 informaţia este transmisă înainte, în timp ce în 
programul 3 este transmisă înainte şi în spaţiu. 

Prima soluţie este realizată mai ușor cu miezuri magnetice, 
semnalele fiind foarte apropiate ca mărime, iar a doua soluţie este 
realizată mai uşor cu criotroni. 


Cele trei programe prezentate mai sus sînt similare în ceea ce 
privește compararea directă a matricei M cu matricea Q. Vectorul 
g poate fi însă folosit pentru a modifica matricea M; matricea mo- 


en nee mane 


10- 


m we = = 
AN a a cow pt DD 
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dificată este comparată apoi cu vectorul g. Acest principiu este 
ilustrat în programul 4. 


>| ga 
a=—0 
>| M < \@/M,4q,9q/M\|> 


DAWN 
2 
m 


Programul 4 


Modificarea matricei M are loc în linia 3: oriunde q are un 
zero, coloana corespunzătoare a matricei M este complementată ; 
în noua matrice acele rînduri care concordă cu q vor avea numai 
componente 1. Această stare de lucruri poate fi ușor sesizată in 
linia 5. 

După determinarea vectorului s matricea M trebuie adusă la 
starea inițială. Această restabilire este realizată sub comanda alter- 
natorului a. 


4.3. OBSERVAŢII BIBLIOGRAFICE 


Problema organizării colecției în memorii este prezentată după 
Warheit [186] si Meadow [99]. 

O comparatie a colectiilor organizate secvential cu cele orga- 
nizate în dicţionar este făcută de Curtice [30]. 

Paragrafele privind organizarea in listă și organizarea in dic- 
tionar se bazează pe lucrările lui Lowe [88]. 

Paragraful privind memoriile asociative are la bază lucrările 
lui Falkoff [41] Kraizmer şi colaboratori [75]. 


SISTEME CU CLASIFICARE 
AUTOMATA 


Complexitatea procesului de regăsire a informaţiilor depinde in 
mare parte de localizarea fizică a înregistrărilor în memorie. În general, 
într-un sistem bazat pe calculator timpul de prelucrare este o funcție 

| monoton crescătoare de timpul de acces la înregistrarea specificată 
| din memorie. Fiecare timp individual de acces este la rîndul său o 
| funcție monoton nedescrescătoare de distanța relativă a fiecărei perechi 
de înregistrări la care se ajunge secvențial în structura memoriei. 

Astfel o micşorare a timpului de interogare ar putea fi realizată 
simplu grupind înregistrările care probabil sînt dorite împreună 
(de exemplu în același pachet de discuri sau pe aceeaşi rolă de bandă 
, magnetică). 

Problema grupării înregistrărilor este de primă importanţă 
în sistemele de regăsire a informaţiilor. Astfel în ultimii ani s-a obser- 
vat un efort pentru rezolvarea problemei organizării unei mulțimi 
de înregistrări în scopul identificării unor submultimi in aga fel 
încît într-o submulțime înregistrările să „semene” una cu alta şi 
să „nu semene” cu înregistrări din afara submultimi. Caracterul 
vag al termenului „seamănă” a împiedicat mult timp găsirea unui 
model matematic. Natura calitativă a relaţiilor dintre elementele 
unei colecţii mari este reflectată în adoptarea termenului ,,grupare’? 
în loc de submulțime, implicînd astfel identificarea intuitivă a unui 
nucleu şi o anumită libertate în definirea limitelor. 


| 5.1. MATRICEA DE SIMILITUDINE 
| ÎNTRE ÎNREGISTRĂRI 


| ; 5.1.1. Matricea S 


Considerăm matricea de fixare 


; Vir Voar °- Vai 
| F = | V12 Vaz +++ Vaz |. 
Vin Vom ad Vam 


7 — 0, 463 
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Aşa cum s-a definit similitudinea între coloanele acestei matrice 
se poate defini similitudinea între liniile matricei, adică între înre- 
gistrări. 

Fie o funcţie de distanţă pe mulțimea X x X, adică aplicaţia, 


ql 8:X xX—-R, 
care fixează fiecărei perechi ordonate (,, z,) un număr real astfel ca 
[V 2,1 [V x] (8 (25, 2) = 8 (Lrs 2)) 
[Y 2,] [Y 2) (2, = £, = è (En L+) = 0), 
[Va] [Y a,] [Va] (8 (a 2) < 8 (2 2) + 8 (2 2.)) 5 


PD Pa ARIE SE DEED TE 


în acest caz spaţiul X devine un spațiu metric (X, è) si funcția de 
distanță poate avea una din formele : 


3 (oy n) = {0 dacă z, = a, , adică [vi] (d d,(x,) = dz); 
a aN: =h dacă z, Æ t, , adică [Vi] (d,(x,) Æ 4(z,)), 
Òl L Ls) = max ld, (2;) Toe d, (2) l; 


b(a 2) = |/ X (a2) — ada). ' 


Fie o funcție de apropiere pe mulțimea X x X adică apli- d 
catia 


SOM TC aod 


| a 
„care fixează fiecărei perechi ordonate (z,, z,) un număr real astfel ca : 

IV 2) [V m] (a (2 2) = a (Ss 2), x 
i [Y L, | LV x, J (ax, = V a (2, @,) = 1). 
i Funcţia « poate avea una din formele w 
‘| n Pi 
f r d,(z,)d v 

i=1 


i=l 


es 
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ice | 
re- Š 
| E dz) d,(a,) 
bia, ) &pan(2 Lr) n a n i 
| E dia) + F da) — ŞI ala) ala) 
i= i=1 t=1 ; 
| ca | 
X min (d(x), d(z,)) 
i=1 
as (L;, Ly) n n ~ 
min ( $ dz), $ da) 
i=1 i=1 
de | Cu ajutorul funcţiilor « sau è se poate construi o matrice de 


similitudine între înregistrări. Aceasta este o matrice pătrată sime- 
trică S = (s,,). 


N 
5.1.2. Matricea K 


Considerăm mulţimea D a descriptorilor si J mulţimea, pri- 
milor n întregi pozitivi. 

Fie D, mulţimea, k-uplelor ordonate de elemente ale D. Fiecare 
d'e D, este o submulțime de descriptori, 


di = {d,, ++) dy}, 


unde d,e D pentru fiecare i = 1, ..., k. 


ca: | Fie P o mulţime nevidă astfel încît fiecare p e P este o funcţie 
definită pe D, pentru keJ cu valori în (0,1) -P este numită mul- 
fimea predicatelor şi se notează 5 


P = {p,,|keJ,jed}, 


unde pentru fiecare k, jeJ, p,, este cel de al j-lea predicat definit 
pe D, 
Dacă p,,¢ P, atunci mulțimea 


B (Pr) = (di die D,, Pri (a') = 1} 


este numită extinderea predicatului p,,. 


4 


eS aS 


eee 


aes 
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O propoziţie L este orice mulțime nevidă (di, p,,} astfel ca 
d'Ee D, Pr (di) = 1 pentru orice keJ. 

Un document este o mulțime finită de propoziții. 

Dacă d', d'e D,, atunci di, d’ se zic conectaţi dacă gi numai 
dacă există p, =P astfel ca 


Pri (di) = Pr (d’) =1, 
adică 
d’, d’ e E(Pu); 


di şi d! se zic conectati în documentul ¢ dacă și numai dacă există 
k perechi de propoziţii Li, La, reJ, încât 


L, =a (di, Py Wet, 
La, = d, P} Let. 

Scriem di kd’ pentru a nota condiţia, definită mai sus. 

Fie 

k(t, di) = max {k|d'‘kd’, die L, de N, L, NE Gs di ele 13 
k 
„Documentele ¢, gi tą sînt k-conectate dacă şi numai dacă 

BE E khud, d’), 


iGJ, ie, 
unde 
J, = fil d'e L, Lev, 
J = {jld EN, Net). 
Scriem 1, kyoto. 


Valoarea k,, este un element al matricei de similitudine între 
înregistrări K = (k,,). 


5.2. METODA PREDISPOZITIILOR 


Fiecarei perechi de înregistrări i se poate asocia un număr 
real pozitiv care reprezintă valoarea intensității de similitudine 
între înregistrări sau mai pe scurt valoarea similitudinii. Numim 
densitate a similitudinilor raportul dintre suma similitudinilor şi 
numărul de perechi de înregistrări considerate. 


l oa 


mai 


cist 
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Metodu predispozitiilor are la bază următoarele două postulate : 

— Densitatea similitudinilor în interiorul oricărei submultimi 
care constituie o grupare trebuie să fie nu mai mică decit 
media po toate submultimile care nu intersectează acea 
submulțime. 

— Densitatea similitudinilor între submulţimea care constituie 

o grupare şi complementul său trebuie să nu fie mai mare 
decit; media pe toate submulţimile care intersectează acea 
submulțime, 

În conformitate cu cele de mai sus se pot da următoarele 
definiţii : 

— O submulțime @ a unei mulţimi X este o semigrupare dacă 
suma similitudinilor oricărui element al grupării G cu celelalte ele- 
mente din @ depăşeşte suma similitudinilor cu toate elementele 
din X care nu sînt în G. 

— O semigrupare G la care nu poate fi adăugat nici un ele- 
ment din X fără să înceteze de a mai fi semigrupare este o grupare. 

Definim predispoziția b (w~, G) a unui element w la o grupare 
Q excesul (pozitiv sau negativ) similitudinii sale totale cu G fata 
de similitudinea sa totală cu X — GQ. Putem spune atunci că o sub- 
mulțime G este o grupare dacă toate elementele ei au predispozitie 
pozitivă cu G şi toate elementele din afara lui G au predispozitie 
negativă cu @ 


G = {w| b (a, G) > 0}, 
unde 
blæ, 0) = s(%, G) — s(a, X — G). 
Termenul 
s(x, G) = È 8(a, 9) 
vea 


reprezintă similitudinea totală a oricărei înregistrări 2 cu toate 
înregistrările ge. 


Termenul 
s(x, X —G) = RA h) 


reprezintă similitudinea totală a oricărei înregistrări & lav toate 
înregistrările he X — GQ. 
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Un procedeu posibil de grupare constă în alegerea unui ele- 
ment g, e şi definirea unei mulţimi iniţiale G, formată cu elementul 
g, Şi toate celelalte elemente care au o similitudine nenulă cu g,. 
Este calculată apoi predispoziția b(%, G) pentru toate elementele 
weX şi elementele cu predispozitie pozitivă sînt incluse în G, dacă, 
nu sînt deja acolo. După fiecare transfer toate predispozitiile sînt 
recalculate şi procesul este repetat pînă cînd nu mai are loc nici un 
transfer. G, obţinut astfel constituie o grupare şi întregul procedeu 
este repetat pentru următorul element g,,.. 

Procedeul este convenabil pentrucă este exhaustiv. Pentru 
acelaşi motiv însă calculele necesare pentru a separa o grupare 
sînt foarte lungi si eficiența procesului depinde în mare măsură 
de cît de aproape sînt mulțimile iniţiale de gruparea finală. 

O altă problemă o pune mărimea grupărilor. Dacă grupările 
devin prea mari se pot folosi metode de reducere pentru a elimina 
din fiecare grupare acele elemente a căror predispozitie este mai 
mică decît un prag. De fiecare dată cînd un element este eliminat 
toate predispozitiile trebuie recalculate şi procedeul iterat pînă nu 
mai apar schimbări. 

Problema principală rămîne însă găsirea unor mulţimi inițiale 
cît mai apropiate de gruparea finală. 

Reprezentăm o submulțime cu f elemente printr-un vector w 
cu 7 componente, o componentă w, avînd valoarea 1 sau — 1 cores- 
punzător faptului că o înregistrare w, este sau nu membră a gru- 
pării. Un astfel de vector il vom numi vector vîrf, deoarece repre- 
zintă vîrful unui hipercub de mărime 2. 

Fie S, un vector linie din matricea S. Atunci predispoziția 
unui element «,eX'la o grupare @ este numărul 


r 
Sw = Y Syw, 
j=l 


Rezultă că un vector vîrf asociat cu o grupare are proprietatea că 
Sw = Qu, 


unde § este matricea de similitudine, iar Q este o matrice diagonală 
nenegativă. Elementele matricei Q sînt modulii predispozitiilor şi 
ecuația spune că componentele pozitive ale vectorului w corespund 
predispozitiilor pozitive şi invers. 

Un vector, vîrf sau nu, care satisface ecuaţia va fi numit stabil 
la semn pentru matricea 8. 
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Căutarea de grupări corespunde astfel căutării de vectori 
virf stabili la semn pentru matricea de similitudine. 

Vectorii proprii ai matricei S care corespund valorilor proprii 
pozitive sînt astfel de vectori stabili la semn. 

Matricea S pătrată şi simetrică este reductibilă dacă rîndurile 
şi coloanele ei pot fi permutate astfel încît să poată fi constituite 
submatrice formate numai din zerouri, adică dacă poate fi pus în 
forma cvasidiagonala 


"IE |\Neosodocg 0 
| Sa Oeics 0 
0---0 0:--0 
St] at a 2 0 z 0 E) 
OEE. -0 5. 
(Ns saou' -0 | 


unde S,,---, ©, sînt submatrice pătrate. 
Notind cu P matricea permutărilor, atunci matricele S și SE 
sînt asemenea dacă 
S = P'S*P. 


Fie M, 2 ++) An Valorile proprii gi Wy, Uz, +++) Un vectorii 
proprii ai matricei S*. Considerăm matricea ortogonală U dată de 
U = (Ur, Woy 2229 Uns 
care este formată folosind vectorii proprii u, drept coloane. Trans- 

pusa matricei U este. 

| ui 
t 
Va 


U= 
Un 


iar forma canonică Jordan a matricei S* este 
S* = UAU’ 

şi 

S= P'S*P = P'UAU'P. 
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Notind 
AN = dete 
se poate scrie 
S = (P'UP)A' (PUPY. 


Vectorii proprii şi valorile proprii ale matricei § sînt aceleaşi cu 
cele ale matricei S*. Componentele vectorilor proprii indică poziţiile 
elementelor submatricelor încât vectorul propriu poate fi folosit ca 
un vector de selecţie al elementelor unei grupări. 

O submatrice construită astfel reprezintă o grupare inițială, 
ideală in care fiecare element este legat de celelalte elemente ale 
Beata gi nu are nici o legătură cu elementele din afara grupării. 


n cazul unei matrice reale de similitudine se poate întîmpla să 
nu existe zerouri. 


Vom analiza acum cazul cind in matricea simetrică toate elementele nule se 
inlocuiesc cu valori mici. Proprietăţile acestei matrice se scot din proprietățile ma- 


tricei cu zerouri, presupunind că se cunose valorile proprii și vectorii proprii ai 
acesteia. 


Considerăm matricea reală de similitudine 


„S + eSo 
unde So este o matrice simetrică. 
Valorile proprii ale matricei S +ES sint funcţii de s. Se poate arăta că pen- 


tru £>0 valorile proprii și vectorii proprii ai matricei S+eS, tind spre valorile și 
proprii și vectorii proprii. ai matricei S. 


Fie A,(€), da(e),. . .,An(£) valorile proprii siu,(e),...,u,(e) vectorii proprii ai matricei 


S + eS). Se poate arăta că die) și ux(e) sînt funcţii continue Și derivabile de € unde 
(0) = Ax șiu,(0) = up. ó 


Reprezentăm aceste funcții sub forma 


Ae (E€) = Ay H eal +... 


ux (e) = up + cul + ... 


și vom căuta întîi pe A și ul, adică partea principală a corecţiei. Obtinem 


(S + eSo) ur (e) = Ax (e) Ux (e), 
adică 


(S + eSo) (us + eul +...) = (dy FEEN ++...) (uy +eul + ...). 
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Egalind termenii de grad 1 în raport cu e în ambii membrii ai egalităţii se obţine 
Sul + Sour = àx ub + al u,. 
Inmultim scalar ambii membrii ai egalităţii cu u 
(Sul, ux) + (So uz Ux) = Az (ul, u) + A (Ur, uz). 
Deoarece matricea S este simetrică si deci 


(Sul, uy) = (ul, Su) = àr (ul, uz), 
avem 
(So uz, Ur) = A (Ur, uy) = A. 


Pentru calculul corectiei ul inmultim scalar ambii membrii ai egalităţii cu u;, unde iE: 
Deoarece vectorii uz si u; sìnt ortogonali, adică (u;, u;) = 0, pentru i = k obținem 


(Suz, uj) + (Sour, ui) = Ax (ul, u;). 


Însă analog cu cazul precedent avem 


a (Sui, u;) = (ul, Su;) = Ai (uk, u;) 
şi de aceea 


(Sour, ui) 
Ar — Ài 


(ul, uj) = 


Alegem ca baza vectorii proprii w,,...,u, ai matricei S, 
(Su, ui) = cy. 
Coordonatele, vectorului ul le notăm a,,.~.;@,, adică 


-ul = a,u, + ... + Gata; 
ceea ce înseamnă că 
a; = (ul, uj). 


Coordonatele de rang k se determină din condiţia de normare a vectorului pro- 
priu arx, adică din condiţia ca lungimea vectorului up + sui + ... să fie 1, 


(ua + eul + edu + sui + ...)) = 1, 


| 
| 


Dra 


E PT SEE 


ESTEE 


= 


LEIA ATTIRE 
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adică 
(Up, Ux) = e((ut, ui) + (Urs ul) +... = 1. 
Egalind termenii de gradul 1 în e, obținem P 


(ul, uy) + (Ur, ul) = 0. 
Această condiție poate fi satisfăcută punind 
Oy S(CB5 GF) = 
In sfirsit obţinem 


Cik 
ul = SS Up 


igh Me — Ài 


unde ciy = (So Uk, Uj), iar A sînt valorile proprii al matricei S. 


5.3. METODA GRAFELOR 
NEORIENTATE 


Mulțimea X a înregistrărilor, 
X= {lis Dao o ih 


poate fi descrisă de un graf neorientat 4. În acest graf o latură l, 
între virfurile v, şi æ, există dacă și numai dacă în matricea de 
similitudine S există s,, >0. 

Graiul & este complet descris de matricea sa adiacentă r X r 
A = (a), unde a,, = 4, = 1 dacă şi numai dacă în matricea de 
similitudine s,, >0. 

Considerăm o reţea unidimensională Y cu r celule care poate 
fi pusă în corespondenţă cu o mulțime de indici 1, 2, .. et 

O fixare v a lui este o transformare a grafului 4& in reţeaua 


Y astfel că dacă (j,,j2,.--,j,) este o permutare a întregilor (1, 
2,...,7), înregistrarea v; este fixată la celula ¢ şi notăm 


vj, > Oe 


Fiind dată o fixare generică +, presupunem a. =1 si 2, at 
V, > d, Numim scurtare relativă a laturii Î,, prin fixarea + mărimea 


Zt > lh — hl. 
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Deci pentru fiecare fixare mărimea 


numită scurtare relativă totală, este definită şi calculabilă,. 
. Vom introduce unele funcţii definite pe mulțimea celulelor 
reţelei și vom nota &’ valoarea funcţiei v la celula j. 
Numim grad al 4; în d numărul g; de înregistrări conectate 
direct la ;; din care la d! le-au fost fixate celule cu indici mai mari 
decit 7 iar la ci le-au fost fixate celule cu indici mai mici decît 7: 


9;, ~b Foi 
Cu alte cuvinte b' este numărul de laturi care pleacă din ¿i spre 
dreapta, iar c' este numărul de laturi care pleacă din i spre stînga, 
considerind că celulele 1, 2, ...,7 sînt aranjate în ordine naturală. 
Pentru fiecare celulă introducem funcţia incrementală zi 


zidi 
şi functia cumulativă fi 


z i 
fi == X Fe 
j=l 


care dă numărul de legături interceptate la o secţiune între i şi 
îi +1, adică numărul de legături care merg la dreapta din celulele 


de 1, 2, ..., i, mai putin numărul de legături care se termină pe celu- 
' lele 2, 3, ..., i. 
Pe Deoarece Zii, = |h — k| dă o contribuţie de o unitate la 
poz IP e PP in) cazul oah a şi deoarece f' = 0, adică nici 
teana o legătură nu există la dreapta celulei r, rezultă 
or a, z- $f. 
j=1 


Fie un nod generic æ; conectat la Tio OTEN Prin 
2 s 
RD A fixarea +, 


d, > h, . 


s 


IPE 
by 
ae 
TAs 
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Definim funcţia potenţială a nodului æ; prin 
pi = b% |j Tey h, |. 
r=1 


Cu alte cuvinte pi reprezintă suma scurtărilor relative ale tuturor 
legăturilor conectate la x, dacă s; este plasat în celula j fără 
să afecteze fixarea vreunui alt nod. 

Pentru o fixare dată + pentru orice celulă j astfel ca 


h, <j < h, +1 
creșterea lui p! este dată de 


4+1 


Pi 
adică diferența dintre numărul de legături conectate la Ti ae 
+, %, Şi numărul de legături conectate la Uh, very Dh, > De fapt 


deplasarea lui 2, cu o poziţie la dreapta face ca scurtările legătu- 
rilor conectate la prima mulțime să crească cu o unitate, în timp 
ce scurtările legăturilor conectate la cea de-a doua mulțime scad 
cu o unitate. Deci în intervalul h,<j <h,,,, p! este o funcţie 
liniară a cărei creștere este 2 r — s. 

La fiecare celulă h, ha, ..., h, creșterea funcţiei p! pentru 
creşterea lui j înseamnă o discontinuitate pozitivă de două unități, 
fiindcă la fiecare celulă o legătură trece de la mulțimea din dreapta 
la mulţimea din stînga. Prin urmare, funcția pi descrește dacă 
2r—s <0 gi crește dacă 2r —s >Q. 

Ca, o concluzie a celor afirmate mai sus, putem spune că dacă 
4, este conectat la i,» sy,» --+,%, , atunci funcţia p! este o 
funcţie liniară al cărei minim este atins la 


— # =r— (8 — r), 


ke Şi Sh, dacă s e par, 
ZF 


Nei =] dacă s e impar. 
2 


În fine, decurgind direct din definiţie, se observă că 


r 


1 
RS ars 
d? 


i=1 
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Vom considera acum problema schimbării fixării ~ într-o 
altă fixare t’. Operația de bază utilizată in acest scop este permu- 
tarea ciclică dreaptă. Dacă nodurile 2;,, a;,,,,..., Zj sînt fixate 


r respectiv la celulele r,r + 1,...,8 după realizarea permutării 

ciclice drepte, pe care o vom nota (s/r), ele vor fi fixate respectiv 

Uturor la celulele + +1,r+2,...,8,7. Evident, orice fixare poate fi 
j fără obținută din oricare altă fixare printr-un număr finit de permutări 


ciclice drepte. De fapt, orice fixare este o permutare, fiecare per- 
mutare este egală cu un număr finit de transpozitii, fiecare trans- 
poziţie este echivalentă cu un număr finit de permutări ciclice drepte. 


Vom căuta acum o expresie pentru variaţia lui Z determinată 
de o permutare ciclică dreaptă. În primul rînd trebuie observat că 
o permutare ciclică dreaptă (s/r) rezultă din realizarea succesivă a 
dislocării (æ; +r + 1, Lin >7+2,...,%,, >S) şi din inserarea 
X; >r. Vom examina acum efectul fiecărei operaţii asupra lui Z., 
Considerăm dislocarea şi următoarele mulțimi de legături: 
A,, = mulţimea legăturilor de la (1,2,...,r —1) la (s, 

E) Bp lke 5650p UO 
B,, = mulțimea legăturilor de la (1,2,...,r—1) la (r, 
Me ate e O = ha 
C,, = mulţimea legăturilor de la (7,r+1,...,s—1) la 
3 (s,s +1, ...,m). 
Fie 4,,, b,,, ¢,, numerele cardinale ale mulțimilor A,,, B,, si C.,. 
Dislocarea nu afectează scurtările legăturilor lui A,, în timp ce 
scurtarile tuturor legăturilor lui.B,, crese cu o unitate şi scurtările 
lui C, descrese cu o unitate. 


Deci variaţia AZ, a lui Z datorită numai dislocării este 
AZ, = b,, — Gee 


Deoarece 


Jani = b,, + 4,,; 
fc, +a, 


atunci 
AZ, = fra — pa, 


| Considerăm acum insertia 2, ar. Variația AZ, a lui Z dato- 


rită acestei operaţii va fi e; — oe. dacă dislocarea nu a avut loc. 
Este necesară deci o corecție. Scurtarea fiecărei legături din $ la 
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(7,7 +1, ...,8 — 1) apare ca redusă cu 1 în AZ, în timp ce în 
realitate trebuie să crească cu 1 ca efect al permutarii ciclice drepte, 
Deci dacă sînt v, astfel de legături schimbarea totală a lui Z este 


AZ = AZ, + AZ, + 2 v, = (F + of) — (P+ of) +2 vy. 


„După realizarea unei permutări ciclice drepte (s/r) valorile 
lui f’ sînt modificate (pentru r <j <s). A : 
Fie v,, = k și fie s legat cu i, îs, ...,%, astfel car <i, <í, < 


Í<... <i, <s. Notăm cu f’ valorile lui f’ după realizarea per- 
mutării ciclice drepte (s/r). Există atunci următoarele relații : 


f’ =f pentru 1<j <r,s <j <m, 

f’ A fit d (fe — f)+ 2k pentru r <j < ta 

= fit + (fe — ft) +2 (k—m) pentru ip <j<i,,.ym=1,2,.. sl 
fi = fi + (fe f) pentru Oy SY A 


Pe baza tuturor celor de mai sus se poate elabora un algoritm 
pentru reducerea functiei Z. 
De fapt dacă funcţia f’ este cunoscută, calculind pe AZ se 
poate stabili imediat dacă o permutare ciclică, dreaptă propusă va 
conduce la o micgorare a lui Z: AZ <0 va constitui regula de decizie 
pentru executarea acestei permutări. În al doilea, rînd, funcţia f’ 
poate fi modificată simplu cu ajutorul expresiilor care dau pe f”. 
Fiind dată o fixare + a grafului d, adică o transformare 
Z; >i, unde a, este o înregistrare a colecţiei și o celulă a reţelei 
Y, se pot construi următoarele tabele cu m intrări : 
T, in care intrarea i conţine celula lui Y în care este me- 
morat 4,; 

T, in care intrarea j conţine înregistrarea memorată în celula 
j a reţelei Y. T, este inversul lui Tin 

T, în care intrarea j conține valoarea curentă a funcției fi; 

T, în care intrarea h conţine lista tuturor înregistrărilor 
legate in graf la z,. 

Cu ajutorul acestor patru tabele se poate construi următorul 
algoritm pentru reducerea scurtării relative totale Z : 

1. Se pune j = 2. 

2. Se caută intrarea j a lui 7,; fie aceasta Dy. 


3. Se caută intrarea h a lui T, și se obțin toate înregistrările 
legate la z,. 
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e în 4, Din T, se obţin celulele în care sînt inmagazinate inregis- 
d trările obţinute la 3. 
este 


5. Cu ajutorul lui T, se calculează 


qm — fm-1 m 
orile s gic Pa ey 
A pentru m =j,j —1,j —2,... 
SSS Se găseşte maximumul lui J”. Fie acesta y. 
POr 6. Se formează A = Vi — 4. Dacă A<0 se merge la 7. 
Altfel se face (j/r). 
| 7. Se reface Ti, T, şi T3. 
8. Dacă j = m stop. Altfel se înlocuieşte j cu j +1 și se 
trece la 2. 
= | Aplicarea algoritmului satisface cerința ca valoarea curentă 
r a lui Z să fie monoton necrescătoare. Practice cu acest algoritm 
rețeaua Y este parcursă de la stînga la dreapta cu cîte o celulă in 
fiecare treaptă şi se determină dacă înregistrarea conținută in ultima 
celulă parcursă poate fi adusă la stînga printr-o permutare ciclică 
dreaptă astfel încît Z să scadă. După ce Y este parcursă de la stînga 
| la dreapta, urmează o parcurgere de la dreapta la stînga pentru 
a se rearanja înregistrările pentru care în timpul primei parcurgeri 
AZ >0. Se completează astfel un ciclu de prelucrare. Mai jos algo- 
| ritmul este ilustrat cu un exemplu. 
Fie graful din figura 13. 


Fig. 13 


În tabela 1 sînt date funcțiile 2 si fi pentru fixarea inițială 
dată în figura 14. În acest caz Z = 56. 
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TEE 


| aa eaa S li oa a 16s 
H fi Sif | IG 6383 o MO Ro ezl malo 


Pt Ey 


| | Aplicînd algoritmul, după o parcurgere de la stinga la dreapta 
| “N se obține fixarea din figura 15. 


În acest caz funcțiile 2/ şi f’ sînt cele din tabela 2. 


Tabela 2 
j 6 1 4 2 7 5 3 8 
z 2 —2 Omi —1) |-—a | <5 
fi 2 4 5 3 6 6 5 3 0 


i pentru care Z = 34, 


i} A După o a doua parcurgere (de la dreapta la stînga) se obţine 
fixarea din figura 16 pentru care Z — 30. 


btine 
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Au fost identificate astfel două grupări într-un singur ciclu 


al algoritmului. 


5.4. METODA DISTANȚEI 
MINIME 


5.4.1 Funcţii discriminante liniare 


Fiecare înregistrare v, desemnată de vectorul 
a = {d, (0) lk =1,..., n}, 


reprezintă un punct in spaţiul n-dimensional numit, spaţiul inre- 
gistrărilor. 

Clasificarea înregistrărilor poate fi definită şi ca separarea 
unor submultimi de puncte in acest spațiu cu ajutorul unor supra- 
fețe de decizie. Dacă se face o clasificare in m grupări, atunci supra- 
fețele de decizie împart spațiul înregistrărilor în m regiuni numite 
regiuni de decizie. ; 

Suprafețele de decizie pot fi definite implicit cu m funcții 
scalare uniforme de înregistrarea w: fı (x), fa (2), .. +> fn (2). Aceste 
funcții pe care le vom numi funcții discriminante sînt alese astfel 
încît pentru toate înregistrările z in regiunea t 


fi (2) Sai) (2), 4,9 za 1, 0 0.05) m, i Æj. 


Cu alte cuvinte în regiunea i cea de-a î funcție discriminantă are 
cea mai mare valoare. 

Presupunem de asemenea că funcțiile discriminante sînt con- 
tinue de-a lungul suprafețelor de decizie. În acest caz suprafața 


8 — e, 463 


samo 


Se ee 
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de decizie care separă regiunile contigue i gi j este dată de 


f (w) — f, (w) = 0. 


Olasificarea unei înregistrări se reduce in acest caz la caleu- 
larea a m funcţii discriminante și selectarea acelei grupări care coreg- 
punde funcţiei cu valoare maximă. 


O familie importantă de funcţii discriminante este cea a func- 
tiilor liniare de forma 


F(a) = X wa, (0) + 445 


unde d, (2) sînt componentele vectorului w, iar w, sînt parametrii 
funcției. 

În majoritatea cazurilor funcțiile discriminante se obțin printr-un 
proces de instruire cu înregistrări prototip ale căror compo- 
nente reprezintă parametrii funcţiei discriminante folosite. 

Presupunem că sînt date m mulțimi finite de puncte prototip 
X,,X_,...,X,,, fiecare mulțime X, avînd t, puncte at, a, ..., ai. 

Definim distanţa euclidiană 3 (a, X,) din punctul arbitrar v 
la mulţimea X, ca 


3 (v, X,) = min |v — al, j=1,...,4, 


adică distanța dintre a şi X, este cea mai mică distanță dintre 2 și 
fiecare punct în X,. 


Definim clasificarea de distanță minimă fata de mulțimile 
Xi Xa -Xn Plasarea fiecărei înregistrări într-o grupare aso- 
ciată cu cea mai mică distanță. 


O clasificare echivalentă se obține comparind patratele dis- 
tanțelor. Deoarece 


e — a|? = (@ — al) (w — a), 

(a — a)? = ww — 2 wa + alai, 
clasificarea de distanță minimă poate fi efectuată comparind ex- 
presiile 


al 


thy © o ete A) we 
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În acest caz pentru fiecare i = 1, ...,m definim funcţiile discri- 
minante date de expresia 


alcu- | fı (2) = max fi (2), VS peor ty 
»ores- j 

unde fi este o funcție discriminantă subsidiară de forma 
func- 


| fi (2) = ¥ d (a!) d, (2) + (Ea) 


Pentru orice vector x, cea mai mare valoare o va lua funcţia, 
trii diseriminantă al cărui index este asociat cu mulțime X, cea mai 
apropiată de x. 

O astfel de clasificare este convenabilă dacă fiecare grupare 
este reprezentată de un număr redus de înregistrări prototip. 


N 


\ 


5.4.2. Clasificarea cu matrice instruibile 


„O matrice instruibild reprezintă o reţea cu cuplaje conditio- 
nate între elemente ale căror funcţii logice depind de semnalele 
aplicate anterior. Cu alte cuvinte o matrice instruibilă constituie 
un dispozitiv de comutare de structură matriceală la care legă- 
turile funcţionale sînt realizate cu elemente de legătură. Aceste 
elemente pot fi binare, în mai multe trepte şi analoge. Elementul 
are canalele de lucru a şi b care în funcţie de operaţia îndeplinită 
pot servi atât ca, intrări, cât şi ca ieșiri ale lui. Proprietăţile elemen- 
tului sînt determinate de următoarele operaţii principale (fig. 17): 

— operația instruirii: ambele canale ale elementului sînt 


dis- intrări la care se aduc simultan semnale a și b. Între intrările a şi 
b se stabileşte o legătură c = @,ab, unde 06, este coeficientul de 
legătură ; 


„> operația ab: la intrarea a se aduce semnalul de apel a, iar 
| la ieșirea b se produce semnalul s = Bac, unde B, este coeficientul 
| de proportionalitate ; 

d ex- „__— operaţia ba: la intrarea, b se aduce semnalul de apel b, iar 

la ieșirea a se produce semnalul s = fgbe. 
Reunirea elementelor de legătură într-o structură mastriceală 
constituie matricea instruibilă. În figura 18 se indică o astfel de 
structură reprezentată simbolic prin bare. Convenim să denumim 
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coloanele şi liniile matricei prin a și b, Matricea instruibilă reali- 
zează următoarele operaţii : a 

— operaţia de instruire: pe barele verticale se aplică inregis- 
trarea x sub forma a m semnale corespunzătoare descriptorilor d, 


4 % d h 
4, 
2 O b b 
c= ab bs 
a © s=Aac 
b; 
s=f, be G b 
Fig. 17 j Fig. 18 


da, ...,d,. În acelaşi timp la barele orizontale se aplică semnalele 
corespunzătoare liniei de înregistrare, astfel ca la un moment dat 
numai una din bare este excitată. Fiecare element de legătură al 
barei b, îndeplineşte operația de instruire şi produce legătura, 


Cuy = Oo d, b; N: 


Dacă considerăm legăturile pentru toate elementele. liniei b,, atunci 
putem defini legătura convenţională c, : 


Ci = Cy +++ Cn = Ody, ... > 0d,,, 

unde 0 = 0,5, = const. pentru toate elementele matricei. Legătura 
convențională c, reprezintă înregistrarea codificată, şi prin urmare 

formarea, ei este echivalentă cu memorarea, înregistrării a; 


— operația de clasificare : pe barele a se aplică înregistrarea 
prototip sub forma a n semnale corespunzătoare descriptorilor săi 
da, di2, + - +5 d. Fiecare element al matricei produce semnalul 


Bol,4,,, = Bo 0d,d,,, j =A; sony Me 
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eali- ee R Biwi 
i În mod corespunzător la ieșirea liniilor b se alcătuiesc semnalele 
A totale 

egis- 

r d, | 


Si By x dd, 


Mai jos se va arăta că în anumite condiţii găsirea lui max s, este 
echivalentă cu găsirea lui min 5 (a, z,), adică semnalul s, de valoare 
maximă se produce în acea linie a matricei în care s-a memorat 
înregistrarea cea mai asemănătoare cu înregistrarea prototip. 

Vom determina acum condiţia ca 


min 5 (4, #,) > max s,. 
Fie o înregistrare z reprezentată de vectorul 
a æ = {d, (”)|k = 1, ..., n} 
a cărui lungime este 


Distanța dintre acest vector şi un vector prototip este 


8 (a, «,) -$ (d, ai 


Convenim ca vectorii æ să fie numiți normati dacă au aceeaşi lun- 
gime, adică 


la Ek. 


Vectorii nenormati pot fi normati pentru un număr real anterior 


prescris k dacă fiecare înregistrare « s-ar transforma într-o inre- 
gistrare 


tura 

are 
m: | gak, 
area la 
r p tza a 
T săi Din expresia distanţei se deduce 
ul 


min 3 (v, æ) > min Dy G2 È då, + A a 
j= j= j= 
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` n 

Întrucât termenul X; d2, = |x, |? are o valoare constantă, este vala- 
j=1 

bilă următoarea expresie : 


i : n 1 „n 
min ò (v, ©,) > max X dd, — a 2 d. 
j=1 j= 


Pentru vectori normati expresia capătă forma 


n 
min ò (2, w,) > max Şi dd, > max s,. 
j=1 (3 


Dacă vectorii nu sînt normati, atunci este necesar ca valoarea sem- 
n 


n 


i nalului s, să fie proporţională cu ¥ d,d,, — ELA Aceasta se poate 
|| j=1 j=1 


realiza introducind în matrice o coloană suplimentara de elemente 
de legătură d,,,, în care pe durata operației de’ instruire se memo- 


rează mărimile — D $ d. Dacă in timpul operației de clasificare 
j=1 


{| la coloana d,,, se trimite apelul cu un semnal unitar, atunci sem- 
= _ nalul total produs in linia b, va fi egal cu ti i 


s= Bat (Saan — 752) 
j=1 


j=1 


şi deci 
min 5 (4, #,) > max s,. 


Astiel, într-o matrice instruibilă îndeplinirea, condiţiei de mai sus 
pretinde satisfacerea uneia din următoarele două, condiţii : 


1i — matricea să posede o schemă de normare cu ajutorul căreia 

yl vectorii a se normează înaintea operației de instruire ; 

eH — Matricea să posede o coloană suplimentară de +a şi o schemă 

sat de comandă, care să asigure pe durata operaţiei de instruire 
n 


oh 1 
te | producerea mărimilor — 3 ¥ d? si memorarea lor in ele- 
| At jal 
mentele coloanei d 


n+l’ 


rala- 
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5.4.3, Caracterul invariant 
al clasificării 


Un aspect important al problemei clasificării cu ajutorul 
matricei instruibile este acela al invariantei clasificării față de unele 
transformari din spatiul inregistrarilor. 

Dacă T este una din acele transformări, atunci înregistrarea 
T (2,), obţinută din v, ca rezultat al aplicării T pe durata operaţiei 
de clasificare, clasifică la fel ca și înregistrarea z,. Cu alte cuvinte, 
invarianță înseamnă că există echivalenta 


min ò (x, z,) > min ò (x, T(2,)). 
O asemenea echivalență este posibilă atunci cînd 


n 1 n n 1 n 
max), d,T(d,,) — 5 È @ max dd, — > Dae. 

; j=1 $ 2 751 fea 2521 
Prin urmare pentru a demonstra invarianta in fiecare caz concret, 
este suficient să se demonstreze că este îndeplinită această condiţie. 
S Ca exemplu vom examina invarianta clasificării fata de trans- 
formarea de similitudine T (v,) = ka, gi față de transformarea de 
deplasare T (x,) = a#,+ kv, unde k >0 este o mărime. scalară 

luată arbitrar, iar v este un vector arbitrar. = 

Clasificarea este invariantă față de transformarea similitudinii, 
dacă vectorii x sînt normati. Într-adevăr, pentru transformarea 
similitudinii condiţia este îndeplinită numai atunci cînd termenul 


n 
=o Yd? are o valoare constantă. Aceasta este posibil numai atunci 
j=l : cee 


cînd vectorii œ sînt normati. Deci dacă se cere ca clasificarea să fie 
invariantă față de transformarea similitudinii, matricea trebuie 
prevăzută cu o schemă de normare. 

Clasificarea este invariantă faţă de transformarea de depla- 
sare atunci cînd tuturor înregistrărilor v le corespund în spațiul 
înregistrărilor puncte ce se găsesc pe acelaş hiperplan 


È dd, =r. 
ei j=1 ; 
Pentru transformarea de deplasare 
T (d,,) = dy +.kd,,. 


| 
| 
f 
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n 


condiția de invarianță so realizează dacă % Sid, dy are o valoare 
jel 


constantă, ceon co înseamnă că tuturor înregistrărilor w le coreg- 
pund puncte pe un acelaşi hiperplan, Desigur că în cazul gene- 
ral înregistrările nu satisfac această condiţie si atunci ele trebuie 
transformate cu ajutorul expresiei 


n 
r — 5 dd 
w -} iomon : V, 
Yai 
geod 


unde > şi v sînt date anterior. 


5.4.4. Proprietatea corectiei automate 


Presupunem că distanţa minimă între două înregistrări memo- 
rate v, w, este čp >l, iar înregistrarea prototip », este situată 
faţă de o înregistrare oarecare memorată w, la o distanță mai mică 


decit fat dacă 5) este un număr impar sau at, dacă 8, 
este un număr par. Vom arăta că în acest caz w, este clasat univoc 
ca &,. Pentru aceasta este suficient să se demonstreze că este satis- 
făcută inegalitatea, 
3(2 V) < Ò (V, V) 0 =f j. 
Conform definitiei distantei 


Ò (@,, 2) + 8 (42) > 8 (x, &,), 
de unde 


d (Di V) > Ò (2, w) — Ò (Ups 2%), 


3 (2, 2,) > min È (V, w) — max 3(a#,, X), 


3 (ana) >, 
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are Prin urmare 
reg - ô 1 
wee | è (2, 0,) > Oe, 
uie 
dul 
8 (2, w) < e ? 
2 
| deci 


è (2, 2) <8(a,, @,). 


Rezultatul obținut poate fi interpretat ca o proprietate de 
corecție automată, adică o invarianță a clasificării relativ la modi- 
K ficările nesistematice în descriptorii înregistrărilor. 


5,5. METODA FUNCŢIILOR 
DE APARTENENȚĂ 


5. 5. 1. Funcția de apartenență 


Fie o mulțime X. Orice submulțime GCX poate fi definită 
cu ajutorul funcției caracteristice : 


Xo: X> R, 


definită pentru fiecare element ve X astfel 


1 dacă seđG, 
0 dacă ze, 


Xe (2) = | 

În mod similar putem introduce noţiunea de funcţie de aparte- 

nenta, 
9,:X > f, 

care asociază fiecărui v e X un număr real în intervalul [0,1]. Valorile 


Po (2) reprezintă gradul de apartenență al înregistrării z la gru- 
parea G. 
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Vom spune că o grupare este o submulțime GCĂ caracteri- 
zată de o funcție de apartenență ọ, cu următoarele proprietăți : 


[Yx e X] (p4 (v) = 0) 2G = Ø, 
[Ys e X] (91 (2) < pa (2)) = Gy, C Ge, 
G, = GNG: = p3 (4) = min (9, (2), P2 (%)), 
G, = G UG: = 94 (2) = max (9; (2%), P2 (%)). 


5.5.2. Utilizarea funcțiilor de probabilitate 
ca funcții de apartenență 


-Fie p(a/i) probabilitatea ca un element veX să aparțină 
| ; grupării 4 i 5 
| Di probabilitatea ca un descriptor d, să aparţină 
grupării 7. 

O funcție de apartenenţă se poate construi folosind probabili- 
tatile p (/i) si pi. împreună cu situaţia conţinutului de descriptori 
pentru fiecare. înregistrare. 

Considerăm m grupări şi matricea 


sli” (Stine Bits Pi pipi 
Pi Pa: Dal, 
po ps: pr 


m unde fiecare linie corespunde unei grupări şi fiecare coloană cores- 
pi punde unui descriptor. 
He Fiecărei grupări îi corespunde un vector linie 


W, = (pe |k =1,. om). 
Fie o. înregistrare © 
i ia = AO a dle don Ae 


! _ Vom spune că o familie de aplicații pe : X — R este parame- 
j trizată de mulțimea {W,,W,,...W,,} dacă aplicația 


9 7X x (W Wa Wat > R, : 


at 
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fi: definită de | 
e (x, W,) = O, (2), 
este continuă, 


Pentru simplificare vom nota ep, (2) = 9, (a). 
Exemple de funcţii de apartenenţă, sînt următoarele funcții : 


¥ min (pt, 4, (a) 
tate ono e 


È max (pi, d, (%)) 
k=l 


? 


ină 3 
k 2 min (pi, d, (2) 
ins | : ga (£) = o, 
ss : min $ pi, X} d, (a) 
bigi M N kel” isi 
È pid, (2) 
lO) = = So 
(5 (pt Yate) 
k=l kel 
; iij pu (2) = = žal - 3 , 
TOP Aa D (pt)? + ba (2) — XI pid, (a) 


În cazul cînd vectorii ; înregistrare sînt ‘binari, condițiile de 
funcție de apartenență sînt Rips act şi de funcţia, 


N AL pi d,o) 
i CO) ass 
me- a Š N, II pasa) 


unde N, este numărul de înregistrări în gruparea î, iar d,(x) sînt | 
numai descriptorii nenuli ai unei înregistrări @. 
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Dacă introducem notatiile 
+ _ [pt dacă d,ea, 
Tg = 
1 — p; dacă d, €g, 


functiile de mai sus pot fi scrise in forma lui Baker 


n 
N, II =. 
k=1 


Toate funcţiile de mai sus au ca parametrii probabilitățile 
descriptorilor de a aparţine la o anumită grupare. 

Aceste probabilitati pot fi determinate fie folosind eşantioane 
de înregistrări prototip cu clasificare cunoscută apriori, fie folosind 
întreaga colecţie şi una din metodele analizei claselor latente. În 
ambele cazuri valorile pi se pot calcula folosind frecvenţa relativă 
drept măsură cantitativă de estimare a posibilităţii obiective. 

Astfel în primul caz avînd N înregistrări prototip împărţite 
în m categorii, fiecare categorie avînd N, înregistrări in total și 
N, înregistrări care au descriptorul d,, atunci 

1 _ 
p k = e 
i 

Această metodă nu pare a fi indicată pentru sistemele de 
regăsire a informaţiilor, unde este greu sau imposibil să se deter- 
mine înregistrări prototip. Pentru determinarea parametrilor p‘, se 
poate folosi însă întreaga colecţie. 

Fie p(z/i) probabilitatea ca o înregistrare «eX să aparțină 
grupării î. Vom nota cu p, probabilitatea ca o înregistrare ze X să 4 
conţină descriptorii z C D şi cu p! probabilitatea ca în gruparea î o 
înregistrare me X să aibă descriptorii z. 

Tinind seama de independenţa statistică a descriptorilor 


p: = II pi. 


kez 


In felul acesta se poate stabili ecuaţia fundamentală din analiza 
claselor latente 


P. = 2 plaji) p:. 
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Valorile p(x/i) si p: pot fi determinate cunoscind probabi- 

lităţile p, şi rezolvind ecuaţia de mai sus. Valorile p, pot fi calculate 

\ pentru o mulțime X dată considerindu-le ca frecvențe relative. Ast- 

fel dacă N, este numărul înregistrărilor cu descriptorii z si N este 
numărul total de înregistrări, atunci 


Metoda de rezolvare a ecuației fundamentale este dată în anexa 2. 


5.5.3. Convexitatea grupărilor determinate 
de funcţii de apartenență 


Un segment de extremităţi ~; şi 2 este o mulţime de elemente 
de forma 


&, +(1 — à) 22, 
unde A este un număr real, astfel ca 0 <A 1. O submulțime din spațiul 
X este convexă dacă include pentru fiecare pereche de elemente oa 
%, segmentul de extremităţi x, şi v,. Partea vidă a lui X este con- 
vexă prin definiţie. 
Spunem că o grupare G este convexă dacă şi numai dacă mul- 


i timile 
, de A, = {T| ee (2) > c} 
oe sînt convexe pentru toţi e in intervalul [ 0,1]. 
$ | Dacă punem c= 9,(a) < 9,(#2), atunci datorită convexi- 
TA j tății lui A,, ae A, şi rv, + (1 — A)a,eA,. Deci se poate spune 
ra a că o grupare este convexă dacă şi numai dacă 
to Pel Ay + (1 — 1) > e = Qe (21) = MIN (Pe (21), Pe (22). 


; Dacă grupările G, si Œ 


NS, 
2 G,NG, este convexă, adică 


P, (Axı + (1 — A)a_) = min (e, (AX, + (1 — Aa), p; (A, + (1 — Aaa). 
iza Fiindcă G, şi G, sînt grupările convexe 

g (Amy + (1 — 2) a) > min (e, (20), Pe (#2), 

p (Ad, + (1 — A) 2) > min (p (M), P; (a)), 


sînt convexe, atunci intersecția lor G, = 
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și deci 


Pa (Aa + (1 — A) 22) > min (min (p, (%1); Pı (We), min (9,(#), ?,(22))), 
sau echivalent 


o, (2, a — 2) a4) > min (min (ei (2), o (2), min (p, (02), e, (2a) 
şi deci a 


Pr (Axı + (1 — A) 22) > min (p, (21); Px (2)). 


In cele ce urmează vom arăta că funcţiile descrise in §5.5.2 
caracterizează grupări convexe. 


pi d, (2) 
Pentru a arăta că funcția +=! — caracterizează o grupare 
n 


convexă va trebui demonstrat că 


D (Ad, (#1) + (1 — a) d, (2)) pi T d, (ap Y ds (22)pe 
k=1 > min | = , 51 E 

n n n 
Notam s 


kel - = 4, 
E a2) pt 

k=1 
Ss ae 


È (Ady (21) + (1 — 2) d, (2) pi 


= 0 
n 


gi presupunem a >b. 
Atunci 


c = àa + (1 — ì)b. 
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Dacă A = 0, 


%3))) 
: i o = b, deci ¢ = min (a, b). 
; | Daoù 4 = 1, 
Va))) e@=a, deci o > min (a, b). 
' Dacă i sl ieee 
T T 
5.5.3 j şi deoarece a >b, 
0 2 + g = >b, deci e >min (a, b). 
T T 
pare } În mod similar se arată că celelalte funcții satisfac relaţia 
Pi (AM, + (1 — A)@g) > min ( Pi (wa) Pi (22) ). 
x p, (Avy + 1 — A) va) p (2) P (Va) 
De 
x | cu condiţiile 


Py (AM, + (1 — A) wg) > min (p, (2), Pi (22) 


P (da + (L — A) wa) > min (p; (2) p; (2). 


5.5.4. Separarea grupărilor 


În spatiul X n-dimensional al înregistrărilor, un hiperplan 
H = {v| av = o0} 


determină trei mulțimi — 


X, = {æj aw < o}, 
X, = {w| aw = 0}, 
i X, = {v aw >0}, 


pe care prin convenție le notăm H_, H, H,. 
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Atit hiperplanul H, cit şi semispatiile deschise H_ gi H, sint 
mulţimi convexe. În mod similar se defineşte separarea grupărilor 
convexe. 

Fie G, şi G, două grupări mărginite, h un număr dependent 
de H astfel ca p, (x) < hpe o parte a lui H şi 9, (7) <h pe cea- 
laltă parte a lui H si a = inf h. 

După Zadeh, vom numi grad de separare prin H al grupă- 
rilor G, şi G, numărul b = 1 — a. 

Fie G,, G, şi G, = @,NG, grupări convexe mărginite, cu 


M, = sup 9,(2), 
M, = sup e, (2), 


j 
M, =sup 9, (2). 


Atunci, 1—M, este cel mai mare grad de separare al grupărilor G, gi 
G, ce poate fi realizat cu un hiperplan in X. 


Demonstrația acestei teoreme este dată în anexa 3. 


Teorema de separare a grupărilor convexe poate fi utilizată, 
pentru dimensionarea grupărilor, adică pentru determinarea pra- 
gului de selecţie a elementelor într-o grupare și deci a suprapunerii 
grupărilor. Presupunem că o colecţie de înregistrări trebuie împăr- 
tita în m grupări şi că pentru aceasta se foloseşte una din funcțiile 
de apartenență analizate în paragrafele precedente împreună cu 
matricea probabilităților descriptorilor obţinută prin metoda anali- 
zei claselor latente. Pentru fiecare grupare funcția de apartenență 
are parametrii determinaţi de vectorii linie ai acestei matrice. Cu 
valorile pe care funcţiile de apartenență le iau pentru fiecare înre- 
gistrare se poate forma tabloul T) : 
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sint | cu ajutorul căruia care se formează tabloul 7’, : 
es Cho Os Gent 
ey Wy Pial) Pis(%) o» Pm—1,m (21) 
Wg Pial Wg) Pig(%) o. Pm—1,m (L2) 
upă- 
„cu f 
Ve Pial Ty) P13( Xp) Pm~1,m(%) 


trebuie ales astfel ca 


Pentru suprapunerea a cel mult m grupări, pragul de selecţie L 


L < min max e, (2%). 
ij h 


În acest fel problema clasificării se reduce la efectuarea urmă- 


toarelor etape succesive : 


— calculul valorilor pt, 
— determinarea tablourilor 7, si T, 
— alegerea pragului de selecţie după tabloul De, 


— gruparea elementelor w= X comparind valorile funcţiei 


de apartenenţă cu pragul de selecţie, 


O grupare ¿ este definită deci de expresia 


[Y ae] (q(2) > L). 


probabilităților pi, este 


Pentru exemplificare presupunem 0 colecţie pentru care matricea 


9-c, 463 


0,62754 0,68694 0,06197 0,57853 
0,59984 0,13551 0,29430 0,51050 
0,76266 0,27440 0,52651 0,61937 
0,45522 0,32918 0,97940 0,75953 


În tabela 3 sînt date valorile functiei 
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n 


E p: d2) 


unde n, este numărul de qescriptori nenuli într-o înregistrare 
pentru o colecţie de 16 înregistrări cu 4 descriptori, care trebuie 


divizată în patru grupări. 


Se observă că 


și deci 


G, C Gs, 


părilor intersecţie. 


[Vz] (92 (2) < 93(2)) 


adică această funcţie conduce numai la 3 grupări. 
În tabela 4 sînt date valorile funcţiilor corespunzătoare gru- 


Tabela 3 

Înregistrare | G, | Gz Gs G, 
ay 0000 0 | 0 0 o 
Tz ib) @ 0,62754 0,59984 0,76266 
T3 05 130530 0,68694 0,13551 0.27440 
ta 0550513350 0,06197 0,29430 0,52651 
Zs 0350330 + 0,57853 0,51050 | 0,61937 
Xe 1 1.0240 0,65724 0.36767 | 0,51853 29 
Ly 13305 10 30 0,34475 0,44707 | 0.64458 31 
Tg 15505301 0,60303 0,55517 0.69101 737 
Tg 05101530 0,37445 0,21490 | 0,40045 29 
Tio it A 0,63273 0,32300 0,44688 35 
Zu 00 1 i. 0,32025 0,40240 | 0,57294 46 
Tiz 151 3150 0,45881 0,34321 0,52119 93 
Tiz Des 051 0,63100 0,41528 0.55214 64 
tu s a 0,42268 0,46821 | 0,63618 38 
Tis ONTE T 0,44248 0,31344 | 0,47343 0,68937 
Tig sl 0,48874 0,38504 | 0.54573 0,63083 
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Tabela 4 
Inregistrare Gia Gi Gy 
ee ee 

are ta 0,62754 0,45522 0,45522 
uie Xs 0,27440 0,32918 0,27440 
ty 0,06197 0,06197 0,52651 

T; 0,57853 0,57853 0,61937 

Te 0,51853 0,39220 0,39220 

oe 0,34475 0,34475 0,64458 

Ts 0,60303 0,60303 0,60737 

29 0,37445 0,37445 0,40045 

ay | Ti) 0,44688 0,54435 0,44688 
| Til 0,32025 0,32025 0,57294 

| Tiz 0,45881 0,45881 0,52119 

a | Tig 0,55214 0,51464 0,51464 
Xia 0,42264 0,42268 0,63618 

Tis 0,44248 0,44248 0,47343 

Tis 0,48874 0,48874 0,54573 


Max ọı = 0,62754, 


max Pr = 0,60303, 


max z, = 0,64458. 


În tabela 3 cea mai mare valoare mai mică decît 0,60303 în coloa- 
nele G,,G,,@, este 0,58793. Cu o valoare de prag 0,58793 se obtin 
grupările din tabela 5. 


Tabela 5 
i A i 
| Gy Ta Xy Ve UW Tio as 
G; Ta Xe do Xe Tia 
Í G, Ta Vs Xy Vg Uy Viy Tie By Ws Be 


In tabela 6 sint date valorile funcției Baker” pentru colecţia 
din tabela 3. 


*) După Winters [189), 
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Înregistrări 


ROR RHOCORRROOORSO 
RPRORRORROOROOROCSO 


În tabela 7 sînt 


O Ole OO Ole ao 
RRRREORROHOEOPR:OOOEO 


Tabela 6 
Gy Gz | G3 
0,7546 0,1695 0,0734 
0,6278 0,3024 0,0686 
0,3432 0,1860 0,4673 
0,5077 0,3041 0,0078 
0,6720 0,2356 0,0860 
0,2704 0,3142 0,4138 
0,4000 0,5138 0,0069 
0,5261 0,3954 0,0757 
0,2650 0,3831 0,0571 
0,2726 0,2306 0,4886 
0,3299 0,3084 0,0066 
0,2015 0,6246 0,0488 
0,2064 0,3742 0,4158 
0,2757 0,5526 0,0062 
0,1448 0,3265 0,0411 
0,1245 0,6020 0,0397 


0,0023 
0,0010 
0,0033 
0,1802 
0,0063 
0,0014 
0,0791 
0,0027 
0,2946 
0,0080 
0,3548 
0,1249 
0,0033 
0,1653 
0,4875 
0,2336 


date valorile funcțiilor care corespund grupărilor 


intersecție. 
Tabela 7 
3 Gis Giz Gu Gog Gos Gy, 
er ÎN NE ANRC N aaa 
Ly 0,1695 0,0734 0,0023 0,0734 0,0023 0,0023 
za 0,3024 0,0686 0,0010 0,0686 0,0010 0,0010 
ao 0,1860 0,3432 0,0033 0,1860 0,0033 0,0033 
zi 0,3041 0,0078 0,1802 0,0078 0,1802 0,0078 
Xs 0,2356 0,0860 0,0063 0,0860 0,0063 0,0063 
Ta 0,2704 0,2704 0,0014 0,3142 0,0014 0,0014 
27 0,4900 0,0069 0,0791 0,0069 0,0791 0,0069 
Le 0,3954 0,0757 0,0027 0,0757 0,0027 0,0027 
Za 0,2650 0,0571 0,2650 0,0571 0,2946 0,0571 
20 0,2306 0,2726 0,0080 0,2306 0,0080 0,0080 
Ti 0,3084 0,0066 0,3299 0,0066 0,3084 0,0066 
Lia 0,2015 0,2015 0,1249 0,0488 0,1249 0,0488 
ris 0,2064 0,2064 0,0033 0,3742 0,0033 0,0033 
Ta 0,2757 0,0062 0,1653 0,0062 0,1653 0,0062 
is 0,1448 0,0411 0,1448 0,0411 0,3265 0,0411 
Lig 0,1245 0,0397 0,1245 0,0397 0,2336 0,0397 
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pi 


în această tabelă 


max (x) = 0,4, 

= Max g(x) = 0,3432, 
max 14(%) = 0,3299, 
max 3(%) = 0,3742, 
max (x)= 0,3265, 
Max 34(%) = 0,0571. 
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Considerind 0,0571 ca valoare de prag se obţin grupări cu suprapu- 
nere foarte mare, care aproape se confundă. În acest caz, deoarece 
MAX ọ,> MAX po este convenabil să se aleagă ca prag valoarea imediat 


superioară, adică 0,3265. 


În tabela 8 sînt date grupările determinate de acest prag. 


Tabela 8 
E 
G, rh gy OREN a Ee 
G, X Xa To Tiy Tiz Vig 
Gz £g Te 0 Tiz 
G, Xiu Tis 


Cele două funcții cu care s-a făcut exemplificarea conduc la 


grupări diferite. Rezultatul procesului de selecție este însă acelaşi 


Up {1,0,1,0} 


rogat dacă nu se făcea clasificarea colecției. 


) 
) 
j 
i 
) 
f 
‘ 
) 
) 
3 
3 
A 
L 
7 


deoarece selecţia se face corespunzător modului de clasificare. 
În fiecare caz sistemului i se prezintă o cerere de selecţie care la 
rîndul ei este clasificată într-una sau mai multe grupări ale siste- 
mului, ca oricare dintre înregistrări. Astfel o cerere de forma 


va fi clasificată în primul caz la G gi G, şi in al doilea caz la G, şi 
G,, deoarece pentru aceste grupări q (q) depăşeşte valoarea de prag. 
Din tabela A, 2 (din anexa 1) se vede că strategiile cu au prn luu TRS 
conduce la interogarea înregistrărilor pe care sistemul le-ar fi inte- 
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5.5.9. Grupări compacte 


Fie două funcţii de apartenență ș, gi p,. Vom aplica regula, 
de decizie 


ste) >ce>mneG,. 


e, (2) 


Luind relația de mai sus ca egalitate este definită o frontieră, 
adică o suprafață de separare a două submultimi compacte. Punind 
c = 1 înseamnă că aplicăm criteriul probabilității minime de eroare 
cînd frontiera corespunde conturului pe care cele două funcţii 
sînt identice. În acest caz regula de decizie devine 


9, (2) — e, (a) >0—ze,. 


Cele m funcţii ,, 9, .-.., Pm definesc deci m suprafeţe de decizie 
care determină m regiuni în spaţiul înregistrărilor. 

Clasificarea, unei înregistrări se reduce în acest caz la caleula- 
rea celor m funcţii şi repartizarea, înregistrării la acea regiune care 
corespunde funcţiei cu valoare maximă. 

Deoarece grupările obţinute astfel sînt mai mici şi cererea de 
selecţie este clasificată numai la o singură grupare, numărul înregi- 
strărilor selectate va fi mai mic decât în cazul cînd este interogată 
întreaga colecţie. 

În tabela 9 sînt date grupările obținute cu această regulă de 
decizie pentru funcţia din tabela 3. 


Tabela 9 


În tabela 10 sint date grupările obținute pentru funcția din 
tabela 6, 
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Tabela 10 


a ea 


Gy vy vy Uy Va = 
Gy vy Wy yg Vig Ci 
Ga vy Ta T să ( ee 
Gy Cu Vin 


Se poate trage concluzia că pentru sistemele de selecţie exi- 
stenta grupărilor suprapuse permite sistemului să dea răspunsuri 
sensibile mai bune şi că deci pentru aceste sisteme nu sînt indicate 
metodele de clasificare care conduc la grupări compacte. 


5.6. SISTEME INTERACTIVE 


Sistemele automate de regăsire a informaţiilor fiind sisteme 
mecanice suteră de o inevitabilă inflexibilitate. Nevoile beneficia- 
rilor unei colecții mari de documente sînt prea dispersate pentru a 
putea fi satistăcute cu un singur algoritm oricît de atent elaborat. 

O cale pentru a evita acest dezavantaj o constituie utilizarea 
informatei de reacţie de la beneficiar în timpul procesului de regă- 
sire. Acest deziderat; poate fi realizat astfel : 

— beneficiarul prezintă o cerere de selecţie; 

— sistemul de regăsire furnizează unele informaţii privind 
un anumit număr de documente considerate relevante la cerere; 

— din aceste documente beneficiarul selectioneazd pe acelea 
pe care el le consideră relevante la cererea sa şi furnizează această 
informatie sistemului ; 

— sistemul efectuează o altă regăsire ţinînd seama de ratio- 
namentul beneficiarului. 

Ultimele etape pot fi repetate de mai multe ori. Un astfel de 
proces este cunoscut sub numele de „reacţie de relevanță”, reacţie 
ve există ca urmare a interacțiunii în timp real dintre beneficiar 
şi calculator, 

Fie X, submulţimea nevidă a înregistrărilor considerate rele- 
vante. Atunci o cerere optimală este o cerere care permite discri- 
minaren maximă între submulfimea X, şi restul înregistrărilor. 
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Dacă Y (q, 2) este media funcţiei de selecţie folosită pentru a con- 
frunta cererea q cu înregistrările unei colecţii X, atunci © cerere opti- 
mală q, poate fi definită ca fiind cererea care maximizează funcția, 


T= ¥ (%42)— Y (42). 
reăy EX 
În practică expresia de mai sus nu este prea utilă si in loc să 
se determine direct valoarea gq, se fac o serie de aproximări por- 
nind de la cererea inițială care identifică o parte a submultimii X,. 
Presupunem r înregistrări din care r, sînt identificate ca ima- 
gini ale unor documente relevante. Atunci funcția T pentru a fi 
maximizată trebuie scrisă ca 


pen X yag ——— dă y (2, 4). 


To tEXp T — To tEXp 


Cînd y este înlocuită cu funcția cosinus, se obține 
Ra i 5 qo- 1 LESS 

To Xp lgi |v] r— ro eX, |g] |x| 
q |; z 1 i 


lal Lro zeă2 |T] T — To 7EXp |d| 


Expresia de mai sus este de forma unui produs [ = g.a astfel 
încît cererea gy care maximizează T va fi proportionala cu a, adica 


da =| Sete ces ds 2] 


„E 
Tozeăp |L] T — Troel | x] | 


Atunci algoritmul de modificare a cererii poate fi scris sub 
forma, 


Ma SA, N +n, E —n, ’ 
= t py KA À le, | 


. 


unde q, este cererea i in secvenţă, Y = {y,, yo, ... Ya) mulţimea 
vectorilor înregistrare corespunzători documentelor relevante re? 
găsite ca răspuns la cererea q,, Z = A En aa “3% mulţimea vec- 
torilor înregistrare corespunzători documentelor nerelevante rega- 
site ca răspuns la cererea, du» iar n, şi n, reprezintă numărul documen- 
telor relevante, respectiv nerelevante, regăsite de beneficiar în etapa i. 


Can- 
opti- 
Netia 


loc să 
por- 
l X 
ma- 
fi 


A 
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Specificarea mulțimilor Y şi Z constituie reacția de la bene- 
ñoiar după etapa è a procesului. 

Vectorilor înregistrare ‘si cerere le corespund puncte în 
spațiul înregistrărilor. Sistemul de regăsire selecționează in acest 
spațiu toate înregistrările care se găsesc „aproape” de cerere (fig.19,a) 

Modificările datorite reacției de relevanță sînt folosite pentru 
a muta cererea într-o nouă poziţie în spaţiul înregistrărilor, acolo 
unde densitatea documentelor relevante este mai mare (fig. 19, b). 

O extindere a procedeului standard de reacţie de relevanţă 
poate fi făcută prin metoda segmentării cererii (query splitting). 
Considerăm exemplul din figura 20. Dacă un algoritm simplu de 
reacţie mută cererea originală q către un grup de înregistrări ce 
corespund unor documente relevante, atunci nu vor mai fi regăsite 
documentele relevante aprtinind altui grup. Pentru a evita aceste 
pierderi, cererea q se înlocuieşte cu alte cereri (în cazul nostru cere- 


_xile q, §i gə). Beneficiarul face atunci raționamente de relevanță 


reqésire fs reeche 


regesire cu reache 


X inregistrsri corespunzind documentelor relevante 
A cerere nemodiicets 


A cerere modificats 


Fig. 19 
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asupra documentelor regăsite de qı şi q și algoritmul de reacţie de 
relevanță se aplică fiecărei cereri q, si g, separat, obtinindu-se noi 
cereri gs Și q, şi aga mai departe. 

În anumite cazuri o perfecţionare a procesului de interacţiune 


Fig. 20 


poate fi realizată folosind drept cerere optimală chiar un vector 
înregistrare. 

Această situaţie este recomandabilă cînd beneficiarul unui 
sistem de regăsire automată își cunoaște foarte bine domeniul Si 
vine la sistem cu o idee foarte clară privind tipul de document pe 
care îl dorește. Astfel el poate stabili un document „foarte relevant” 
care este definit apoi drept cerere cu care se face selecţia finală. 
Figura 21 ilustrează, procesul. 


Cu toate că modificările aduse cererii, așa cum au fost dis- 
cutate pînă acum, rectitică într-o oarecare măsură imperfectiunile 
cererii inițiale prezentată sistemului, ele nu afectează spațiul înre- 
gistrărilor. Orice imperfectiune a acestui Spațiu se păstrează atît 
timp cit există colecţia. S-ar părea deci că pentru a se obţine rezul- 
tate optimale ar trebui modificat şi spaţiul înregistrărilor. Este 
evident că în sistemele cu clasificare automată, unde înregistrările 
sint grupate în zone distanţate, nu este suficientă numai modificarea 
cererii, pentru că prin modificare cererea va fi mutată într-o poziție 
apropiată de o grupare şi depărtată de alte grupări care în felul acesta 
vor fi ignorate, Presupunerea că documentele găsite ca relevante la 


ere Piti E 
heir ie a N i a Set 
a SC A a aaa 
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de o cerere dată sint de fapt interconectate conduce la concluzia că este 
0i necesară o nouă regrupare în spaţiul înregistrărilor tinind seama de 


datele reacției de relevanță. Numai în felul acesta determinarea 


A cerere initials A cerere nove 


Q) vector corespunzind 
unu! dacument relevant. 
regasi? si folosii drent 
cerere pentru o nous iterare 


Fig. 21 


unei înregistrări corespunzătoare unui document relevant va uşura 
găsirea celorlalte. 

În figura 22, a este prezentat din nou spaţiul din figura 19 în 
care poziţia înregistrărilor este schimbată astfel ca la modificarea 
cererii (fig. 22, 6) să fie regăsite aproape toate înregistrările ce 
4 corespund documentelor relevante. 
dis- Se ajunge astfel la noţiunea de „spaţiu dinamic” pornind 

de la următoarele presupuneri : 


unile — pentru o cerere data, descriptorii care apar mai des in doeu- 

inre- mentele relevante decît în documentele nerelevante contribuie pro- 

atit babil în mod substantial la relevanta documentelor pertinente. 

aL Deseriptorii semnificativi sînt legaţi între ei si apar adesea simultan. 
5 


Mărind valoarea acestora se realizează o apropiere a documentelor 
ärile similare. | 


area | — orice document relevant (determinat prin reacție) care nu 
ziţie conține un descriptor semnificativ conţine probabil informații le- 
cesta gate de acesta gi deci acest descriptor trebuie adăugat documentului. 
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Este dificil să se determine un criteriu pentru se decide asupra, 
semnificației descriptorilor pentru un anumit document, Poate fi 
calculat însă un factor de discriminare 8, folosind mărimile 7, gi 


n, unde 7,, n, şi 5, sînt 


1 
hy = == Uris 
I rea 
1 
NE= Y. 
=: A ade 
je 
+ or EN, 


în care 


I — numărul de elemente al mulțimii R, 

J — numărul de elemente al mulțimii N, 

R — mulţimea elementelor relevante regăsite, 
N — mulțimea elementelor nerelevante regăsite, 
%,, — valoarea descriptorului i în documentul k, 


r, — Valoarea medie a descriptorului i în documentele rele- 
vante regăsite, 
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ra 
fi m, — valoarea medie a descriptorului i în documentele nere- 
Și levante regăsite. 


. Diferența r, — n, dacă este pozitivă, este o măsură indi- 
cind cu cît este mai important descriptorul i în descrierea naturii 
documentelor relevante decit în descrierea naturii documentelor 
nerelevante. Această măsură, cînd este normalizată prin împărțire 
cu factorul +, + n, devine factorul discriminant 3, O valoare po- 
zitivă pentru 5, indică deci că descriptorul apare mai frecvent în 
documentele relevante regăsite decît în documentele nerele- 
vante regăsite și, în concluzie, are o anumită semnificaţie. Cu cit 
valoarea ò, este mai mare, cu atit mai semnificativ este descrip- 
torul ca indicator al relevantei documentului. 

Toate înregistrările în spaţiul înregistrărilor sînt apoi modifi- 
cate după expresia 


ù On =, (ll + k 3,) 


pentru un k ales in mod corespunzător. 

Este posibil ca modificarea spaţiului înregistrărilor să se facă 
operind numai asupra vectorilor ce corespund documentelor 
relevante si nu asupra tuturor vectorilor ca mai sus. 


În acest caz vectorul cerere g este modificat de citeva ori 

folosind o tehnică standard de reacţie de relevanță pînă cînd se 
obţine un vector q, care regăsește o mulțime de înregistrări X, 
acceptabilă pentru beneficiar. Valorile descriptorilor în vectorii 
ce aparțin mulţimii X, sînt apoi modificate pentru a micşora un- 
ghiul dintre fiecare vector v,<¢X, şi vectorul q. O descrestere a 
unghiului dintre vectorii gg si v, înseamnă o creștere a cosinusului : 


eS re ee 


COS (qo) = 


(35 (as Seo) 


j=1 j= 


unde æ% este valoarea descriptorului j în vectorul &,. 

Pentru vectorul cerere gq şi înregistrările v, s X, procesul 
de modificare are loc în două etape. Vectorul cerere este mai întii 
normalizat la „lungimea? vectorului înregistrare făcînd suma valo- 
rilor componentelor lui q) egală cu suma corespunzătoare pentru v, 
rele- Dacă A, este suma valorilor componentelor vectorului cerere si A, 
este suma pentru vectorul înregistrare, atunci vectorul cerere nor- 
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malizat este definit ca 


Test eae 
Go = Go" 


qd 


Valorile vectorului înregistrare corespunzător unui document rele- 
rant a, sînt modificate atunci după expresia 


ZA), 0<A<1. 


Vectorul cerere fiind normalizat, modificarea de mai sus a presu- 
pus vectori de lungime egală. Ea este deci o transformare liniară, 
adică 2, va avea aceeaşi lungime ca şi z,. Lungimea vectorului z, 
este J) ai, deci 

3 


Deoarece 


atunci 


5.7. OBSERVAŢII BIBLIOGRAFICE 


Majoritatea metodelor de clasificare cunoscute se bazează 
pe matricea de similitudine dintre înregistrări. 

Similitudinea dintre documente ținînd seama de descriptori 
a fost analizată de Parker-Rhodes [136], Salton [158], Bonner [15] 
și Sanders [166]. O altă modalitate de a construi matricea de simi- 
litudine dintre documente o constituie folosirea referintelor biblio- 
grafice. Salton [154], Garfield [44 ]si Chien gi Preparata [21] au studiat 
această modalitate considerind mulţimea X a documentelor ca. avînd 


PA a Le 
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structură de graf neorientat. Nodurile acestui graf reprezintă elemen- 
tele mulţimii X, iar laturile reprezintă cuplajele bibliografice w,,: 
w,, = 1 dacă documentul a citează pe b sau dacă documentul 
| a este citat de b; 
w,, = 0 dacă documentul a nu citează sau nu este citat de b. 
> Tele- Kessler [74] Price si Schiminovich [139] au definit intensitatea 
de cuplaj ca numărul de referinţe comune la două documente. 
O sinteză a metodelor de clasificare pe baza matricei de simili- 
tudine elaborate la IBM a fot făcută de Bonner [15]. 
Parker-Rhodes [137] si Needham [103], [104], ambii de la 


presu- Cambridge Language Research Unit, au elaborat teoria matema- 
Niară, tică a grupărilor bazată pe noţiunea de predispozitie. Metoda vec- 
ui x torilor proprii pentru găsirea grupărilor inițiale se datorește lui 


LeSchack [81] iar cazul matricei de similitudine fără elemente nule 
este prezentat după metoda indicată de Ghelfand [45]. 

Sparck-Jones şi Jackson [177], tot de la Cambridge Language 
Research Unit, au folosit alte definiții ale grupării care nu tin sea- 
ma de similitudinea fiecărui membru al grupării, ci de proprietăţile 
partiției. Ei au introdus noțiunea de coeziune la frontieră. Coe- 
_ ziunea la o frontieră, care împarte mulțimea în două submultimi 
» A şi B, este 


2 
S S 
AB sau AB 


Sas ar San S44 ar Sup 
unde s,, este similitudinea dintre multimile A si B, 


Sas = X Sa, 2 
a, fiind elementele pe o parte a frontierei şi b, elementele pe cealaltă 
parte a frontierei. 

Dacă s,, = 0, atunci A si B sînt disjuncte. Valoarea s,, in- 
dică gradul de suprapunere. Raportul s,,/s,, măsoară izolarea gru- 
pării. Cu cît este mai mică valoarea acestui raport cu atit gru- 
parea este mai izolată. 

Dacă f, este numărul de elemente în gruparea A atunci 
(fa—1) f, măsoară limita superioară a lui s,, şi de aceea raportul 
(f,—1)f,/8,, măsoară ,„plinătatea” lui s,,. Diferite combinaţii ale 
acestor factori au fost încercate pentru definirea unei funcţii de 


r [15] coeziune ca de exemplu 

> simi- 8 Ail 
piblio- 8an fa—1 
+ndiat Saa Saa 
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Primul factor dă o imagine externă a grupării, iar cel de al doilea 
factor dă o imagine internă, De observat că in acest caz s,, nu 
mai apare, TE”: mE: 

Parker-Rhodes [136] a demonstrat că definițiile grupării bazate 
pe coeziune sint echivalente cu cele precedente. 

Multi cercetători au investigat utilizarea grafelor pentru 
a efectua clasificarea. 

Abraham [1], [2] la IBM a utilizat un procedeu de clasificare 
bazat pe arbori. O metodă originală este utilizată de Paul Constan- 
tinescu [25]. 

Preparata si Chien [138] transformă graful într-o rețea unidi- 
mensională la care pentru fiecare locaţie se calculează o funcție. 
Ei dau un algoritm pentru modificarea funcţiei prin reorganizarea 
reţelei, ceea ce conduce la obţinerea de grupări suprapuse. Acest 
algoritm este prezentat în paragraful 5.3. 

Hill [61] a sugerat o metodă vectorială de clasificare. Conform 
acestei metode primul document este stabilit drept gruparea 1. 
A doua înregistrare este comparată cu gruparea 1 si dacă este simi- 
lară este fixată deasemenea la gruparea 1; dacă nu este stabilită 
ca gruparea distinctă ete. Fiecare clasă este un vector linie al unei 
matrice P =(p,,), unde Py =n,,/n, n, fiind numărul de înre- 
gistrări în gruparea 7 cu descriptorul j, iar n, fiind numărul total 
de înregistrări în gruparea 7. Elementele matricei P sînt numere 
între 0 şi 1 reprezentînd frecvenţa relativă cu care descriptorul co- 
respunzător a fost folosit pentru a descrie înregistrările fixate la 
grupare. Ca măsură a similaritatii se utilizează produsul matricial 
XP, unde X este vectorul înregistrare. O înregistrare este fixată la 
gruparea pentru care factorul de similaritate are valoarea cea mai 
mare. 

Rocchio [147] într-o teză de doctorat susţinută la Harvard 
University propune o metodă care permite ca numărul de grupări 
să poată fi controlat şi la fel volumul unei grupări şi suprapunerea 
dintre grupări. 

În spaţiul înregistrărilor fiecare înregistrare este supusă unui 
test de densitate regională pentru a se determina dacă în vecinătate 
Be găsesc alte înregistrări in număr suficient. Acest test pre- 
tinde ca un anumit număr de înregistrări să aibă o similaritate cu 
înregistrarea de probă peste o valoare de prag. 

‘ Înregistrările care cad la proba de densitate sînt considerate 
pierdute și nu mai sînt alese ca centre potenţiale ale unor grupări. 
Dacă o înregistrare trece proba de densitate se alege o valoare de 


SISTEME CU CLASIFICARE AUTOMATA 145 


prag, în funcţie de numărul maxim și minim al elementelor in grupare 
şi toate înregistrările a căror similaritate cu înregistrarea centrală 
au valori mai mari decît valoarea de prag definesc o grupare. 

O excelentă tratare a clasificării cu ajutorul funcţiilor discri- 
minante este cea a lui Nillson [130]. Clasificarea cu matrice instru- 
ibile se datorește lui Agamalova şi Agopian [3]. 

Metoda analizei claselor latente a fost utilizată prima oară de 
Lazarsfeld [78] în studii de sociologie pentru determinarea atitudinii 
personalului din armată fata de diverși factori. Baker [9] a sugerat 
posibilitatea aplicării metodei la sistemele de regăsire a documentelor. 

Metode matriciale pentru obţinerea parametrilor latenţi au 
fost elaborate de Anderson [5], Gibson [47], Mandansky [92] şi 
Winters [189]. 

Noţiunea de funcţie de apartenență a fost introdusă de 
Zadeh [190]. 

Folosirea teoremei de separare a mulțimilor fuzzy in clasifi- 
carea automată pentru sisteme de regăsire a informaţiilor a fost 
propusă în [123], [124], [125]. 

Rocchio [147], Salton [161], [162], Riddle, Horwitz, Dietz [145, ] 
Brauen, Holt, Wilcox [20] si Ide [67] s-au ocupat de reactia de 
relevanţă. Metoda segmentării cererii a fost propusă de Borodin, 
Kerr si Lewis [19] iar noţiunea de spațiu dinamic se datoreste lui 
Davis, Linsky şi Zelkowitz [33]. 

Crawford si Melzer [29] au propus folosirea documentelor re- 
levante in locul cererii de selectie in procesul de regasire. 


N 


10-0, 463 
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EFICACITATEA STRATEGIILOR DE SELECTIE CU FUNCTII 
DE APROPIERE 


Pentru a ilustra practic criteriul de apreciere a eficacitatii 
strategiilor, expus in $2.7, în tabela A.1 sînt prezentate valorile 
pe care le iau cîteva funcţii de selecţie pentru o colecţie cu 16 
înregistrări şi 4 deseriptori binari. 


Tabela A.1 
q 1010 TRS | “sm | “MK ac “PRN OMM as 
za 0000 | 0 0 0 0 0 0 0 
oe 1000 1/4 | 1 1 1/2 1/2 1/2 1 
T3 -01 00 0 0 0 0 0 0 0 
za 0010 | 1/4 | 1 1 1/V2 1/2 1/2 1 
Zs 0001 0 0 0 0 0 0 0 
Te 1100 1/4 1/2 1/2 1/4 1/3 1/3 1/2 
T7 1203180. 2/4 1 1 1 1 1 1 
Le 1001 1/4 | 1/2 | 1/2 1/4 1/3 1/3 1/2 
To 0110 | AIE 1/2 | 1/2 1/y4 1/3 1/3 1/2 
Tio 0101 | 0 0 0 0 0 0 0 
Tu OOM 1 | ZI sp A 1/4 1/3 1/3 1/2 
ziz 1519130. E Si 21/6 2/3 2/3 1 
243 1101 | 1/4 | 1/3 | 0 176 1/4 1/4 1/2 
Tis O EEE N SEAS 2/V6 2/3 2/3 1 
Tis 0111 | 1/4 | 1/3 | o 1//6 1/4 1/4 1/2 
Tjo E E E I EE E AL E 2/4 2/4 1 


În tabela A.2 sînt prezentate răspunsurile sistemulul pentru 
strategiile realizate cu cererea, de selecție şi funcțiile din tabela A.1. 
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Tabela A.2 


Funcţia | Răspunsul sistemului 
O e ee de a eo ae arts O 


Ty Tiz iu Tig 
TRS Ta Uy To Te To Tu Tıg Tis 
i a e Tig 


a La Xz 

Tiz Tig Tie 
ASM Te Tg Ty Tır 

V3 Tas 

Ti Ta Xs Vio 


To Ta U7 ro iq 
OME Vo Vg Ty Tır Tie 
L Ta X53 Vio X13 Tis 


Ta Ta Ta Tiz Tia Tig 
as Te Tg Lg Tia Tıg Tis 
Tı Ta Ls Tio 


ae T: 
XPRN Tia iq 
OMM To Uy Tig 
25 Te Ty tu 
Tis Tis 


Tı Ts Xs Vio 


e 


Strategiile de selecţie produc o partiție a mulţimii X = {a,,... 
in submultimile disjuncte 


X, = {x| a (£) = Gs 


Din tabela A.2 se observă că strategiile cu funcţiile «c, «prx rea- 
lizează o partiție cu mai multe submulţimi disjuncte, deci au o 
putere de selecție mai mare. Deoarece strategiile de selecţie cu fun- 
Chile as am ras produc raspunsuri foarte apropiate, se poate trage 
concluzia, că funcţiile respective au practic acelaşi număr de compo- 
nente. Pentru același motiv se poate spune că funcția «uw are ace- 
laşi număr de componente cu funcţiile «o şi «ery. Această afirmaţie 
este adevărată însă numai pentru cazul vectorilor binari. 

_ _O examinare a tabelei A.1 permite verificarea imediată a cri- 
teriului de eficienţă a strategiilor de selecție. Strategiile cu funcțiile 
TRS, G8, Și osm dau acelaşi rang înregistrărilor ay, si ag, adică 
nu sint sensibile la prezența descriptorului d,. Or, este evident că 


, Zis) 
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înregistrarea #,, este mai apropiată de cererea de selecţie decât 
înregistrarea Sie 

În tabela A.3 sînt calculate valorile funcțiilor pentru aceeași 
cerere de selecție, colecţia fiind modificată însă, prin lungirea înre- 
gistrărilor. Tuturor înregistrărilor li s-au adăugat; doi descriptori care 
nu figurează în cererea de selecţie. 


Tabela A.3 


e E O a i ie jad A a N A A 

q 101000 TRS æg Ogu | “MR da APRN Cay 
ee ANN INI 

xy 000011 0 0 0 0 0 0 0 

Za 100011 1/6 | 1/2 | 1/3 | 1/2 E 1/4 | 1/4 

Ta 010011 0 0 0 0 0 | 0 0 

ze | 001011 S| Ty |) ga 1/V5 1/4 | 1/4 

Ts 000111 0 0 0 0 0210 0 

Te 110011 1/6 | 1/2 | 1/4 | 1/4 | 1/V8 1/5 | 1/5 

za 101011 260| DCE TI 2/V8 | 2/4 | 1/2 

zs 100111 1/6 | 1/2 | 1/4 | 1/4 | 1/V¥8 | 1⁄5 | 1/5 

To 011011 1/6 | 1/2 | 1/4 | 1/4 | 1/Y8 1/5 | 1/5 

Tio 010111 0 0 0 0 0 FO 0 

zu 001111 1/6 | 1/2 | 1/4 | 12 | 1/V8 1/5 | 1/5 

Lap 111011 2/6 | 4 Hs || a) 2/V10 | 2/5 | 2/5 

zi 110111 1/6 | 1/2 | 1/5 | 0 1/10 | 1/6 | 1/6 

tia 101111 2/6 | 1 215 || at 2/Vi0 | 2/5 | 2/5 

De 011111 1/6. | 1/2 | 1/5 | 0 1/V10 | 1/6 | 1/6 

Tie a sa ala 2/6 | 1 2/6 | 1/2 | 2/V12 | 2/6 | 2/6 


În tabela A.4 sînt date răspunsurile sistemului pentru colecţia 
din tabela A.3 și strategiile din tabela A.1. 

În tabela A.5 sînt date valorile funcţiilor pentru colecţia 
de înregistrări din tabela A.2 lungimea înregistrărilor fiind mărită 
neuniform. 

În tabela A.6 sînt date răspunsurile sistemului pentru strategiile 
din tabela A.5. 

Se observă că faţă de situaţia precedentă răspunsurile sint 
practic neschimbate. 

În tabela A.7 sînt date valorile funcţiilor pentru colecţia de 
înregistrări din tabela A.5, cererea, de selecţie fiind lungită,. 

În tabela A. 8 sînt date răspunsurile sistemului pentru strategiile 
din tabela A.7. 
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Tabela A.4 


Funcţia Răspunsul sistemului 
TRS Tı Vig Tig Vig 
as Ta Uy To Tg Vo Tiz Tig Vp 
Tı Ty Tr Vio 
XASM Tr 
Tig V4 
T Uy Tig 
Te Ta Ty Tır 
Tiz Tis 
Tı Ty Tr Vio 
MK Ta Tı Tiz V4 
To Uy Tiç 
za DA 0 
T Ta U5 Vio Tıg Tis 
, a T7 
d OPRN Tiz Tig 
N XMM Tis 
GH Eh 
Te Ts Ty Ti 
Xis U5 
d th Os Gr 
Tabela A.5 
$ j q 1010000000 | TRS Qg Cong XK | “pew 
2 


| za 0000110000 0 0 0 Os 0 
za 1000111000 1/10 1/2 1/4 | 1/8 1/5 

Za 0100110100 0 0 0 0 
za 0010110010 1/10 1/2 1/4 | a/Vs 1/5 

T5 0001110001 0 0 0 0 0 
k Te 1100111100 1/10 1/2 1/6 | 1/12 1/7 
i a 1010111010 2/10 1 2/6 | 2/V12 | 2/6 
za 1001111001 1/10 1/2 1/6 1/Vi2 1/7 
ay Lp 0110110110 1/10 1/2 1/6 1/Viz 1/7 

a Zio 0101110101 0 0 ON | eo 0 
H fa 0011110011 1/10 1/2 1/6 1/V12 1/7 
ziz 1110111110 2/10 1 2/8 2/16 2/8 
| Tis 1101111101 1/10 1/2 1/8 | 1/16 1/9 
i ie 1011111011 2/10 1 2/8 | 2/V16 | 2/8 
| Tis 0111110111 1/10 1/2 18 |- 1/Vie 1/9 
Tie ih i) A ah 1941 2/10 1 2/10| 3/20 2/10 


RE Ca la aa 
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Tabela A.6 
el 
Funcția Răspunsul sistemului 


TRS 


Xs 


A sm 


APRN 


Ta Tia Tig Tig 
Ta Ta To Te Vo Vir Vis Tis 
Ti Xg Tg Vio 


zy 

To Va Tia Tiq 
Tis 

Tel Lg Tg Tir 
Tig Tis 

Lu Lg Vs Lio 


T7 

Tiz Vig 

Ta Va Tis 

Te Te Vy tu 
Tis Tis 

Tı Ta Vs Vio 


Tabela A.7 
q 1010101000 Tes | 28 cou | «o acum 
Ly 0000110000 1/10) 1/2 | 1/2 18 1/5 
ma 1000111000 3/10| 3/4 | 3/4 3/V16 3/5 
Ta 0100110100 1/10 |. 1/4 | 1/4 1/V16 1/7 
za 0010110010 2/10) 2/4 | 2/4 2/16 2/6 
xe 0001110001 1/10 | 1/4 | 1/4 1/16 1/7 
Fy 1150505101 110%0 3/10 | 3/4 | 3/6 3/V24 3/7 
T7 1010111010 4/10 | 4/4 | 4/6 4/24 4/6 
Za 1001111001 3/10| 3/4 | 3/6 3/24 3/7 
To 0110110110 2/10| 2/4 | 2/6 2/24 2/8 
Tio 0101110101 1/10 | 1/4 | 1/6 1/V24 1/9 
oy 0011110011 2/10 | 2/4 | 2/6 2/V24 2/8 
ie 1 1511051510 11510 4/10 | 4/4 | 4/8 4/32 4/8 
o TIMALO 3/10 | 3/4 | 3/8 3/732 3/9 
zu NORI td VO ea 4/10| 4/4 | 4/8 4/V32 4/8 
Tis 0111110111 2/10| 2/4 | 3/8 2/32 2/10 
Ze La Dh A AE 4/10 | 4/4 | 4/10 4/V40 4/10 
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Pubela AS 


ee ceeace e 


DR CO O e 


TAS a Can #0: PUN 
AEE h heli ee taia a a, 
Me Me dna tie | N N aa Na Va ry 
We Re Le din | Wy Ca te a ty 1a 
N N ON ORN i Y N Vy Shy Xa Wy Wy Va Va Tig Tia Fig Vy 
My VN Qe | YW MR No Vja Via 
| Gia Va Va 
VW tu Ay Via 
Va Va Via Vy Via 
Via Ya Uy 
V0 


Se observă că puterea de selecție a strategiilor a crescut indi- 
ferent de funetia selecție folosită. Se verifică deci gi faptul că numă- 
rul dihotemiiler variant cu numărul componentelor funcţiilor de 
seleotie şi cu lungimea cererii de selecție, Cu eft cererea de selecţie 
are mai multi deseriptori, cu atit mai puţine componente sînt anulate. 

În tabela 9 se dau valorile unor functii de selectie pentru o co- 
lecție de înregistrăni ale căror componente iau valorile 1, 2, 3. 


> Fadela Ao 


10100100 TRS ag ASM ao AMM | APRN 
x 123001000 5a | 4 5/7 5/45 3/7 5/13 
x 1000283100 49 | a3 | 4/7 yas 2/8 4/14 
ty Si2001000 ce | i 6/7 ayan 3/7 6/12 
* 1210030200 1/9 | 1/3 | 1/7 1/45 1/9 1/17 
Xs 030002200 2/19 | 1/8 | 2/7 2 /Va5 1/9 2/16 
as 010000101 0 0 0 0 0 0 
a 120112018 3/9 | as | 3/7 3Va5 311 | 3/15 
Xs 1170210220 a | 1/3 | 2/9 aV aa 1/13 | 2/416 
ze 212012100 go | 4 6/9 6/45 3/9 6/12 
Lie 0300021000 179 | 1/8 | 14 1/V30 1/6 1/13 
ty 101001000 $9 | 1 1 1 1 1 
Tia 131001000 gio la 9/8 3/36 3/6 | sa 
žia 111001000 $9 | 1 3/4 9/13 3/4 3/4 
Ba 121001000 3/0 | 1 3/5 sat 3/5 $/? 
Tis 121101000 3/9 1 8/8 9/4 3/0 3/8 
dia 121201000 a | 4 3/7 $/V838 9/7 sui 
fir 121301000 $0 | 1 9/8 3Vaă 3/8 8/16 
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on, i 
În tabela A.10 sînt prezentate răspunsurile sistemului pentru 
strategiile din tabela A.9. 
ee, i 
E 
Tabela A.10 
| osm ao “PRN OMM 
| 
| ti Tu v4 Tu 
T3 Tiz Tiz Tiz 
Lig TX Lzy X14 
Zi Tiy Tia 1915 
Xo zı Tı TiX3Ti6 
| X14 X15 245 T 
| Ta 2 Ly 23 
| T12%15 Tig Tig Ta 
= LaTi Xiz Tiz t7 
E~ X47 T7 £7 Its 
T5 17 17 Tg 
BT ETS tere ie) 
Tg X19 Zio Te 
ER 24 bre 
Te Te Te 


L13 L11 V12 L13 L14 T15 L16 17 
as Ta 
LaL LTs Yig 
Te 
aaa 
EATS 
TRS TI 
Ta 
U7 X14 X 9% 13% 4% 5046277 
TETE 
Tao 
Te 


Și în acest caz se verifică faptul că strategiile cu funcțiile 


2 | os Şi ras au o putere de selecție mai mică în comparaţie cu strate- 
giile cu funcţiile «, și &pry 

| În tabela A.11 sînt date valorile funcţiilor pentru o colecţie 
de înregistrări de lungime constantă, descriptorii avînd valorile 


A Ue 


Se 
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Tabela A. 11 


q 1010 | ao “PRN OMM as asm TRS 
E pă 
zi 1230 | 4W28 | 4/22 2/6 1 4/6 1/3 
ta 3210 | 4/728 | 4/22 2/6 1 4/6 1/3 
23 2130 5/V28 5/21 2/6 1 5/6 5/24 
zi 2310 3/V28 3/23 2/6 1 3/6 3/8 
Ts 0123 2/28 2/24 1/6 1/2 2/6 1/8 
ve 0321 2/28 2/24 1/6 1/2 2/6 1/8 
vy 0213 1/28 1/25 1/6 1/2 1/6 1/4 
Ts 0231 3/28 3/23 1/6 1/2 3/6 1/12 
Ly 1203 1/V28 1/25 1/6 1/2 1/6 1/4 
Tio 3201 3/28 3/23 1/6 1/2 3/6 1/12 
tu 2103 2/28 2/24 1/6 1/2 2/6 1/8 
Tiz 2301 2/V28 | 2/24 1/6 1/2 2/6 1/8 ° 
Tas 1023 3/28 3/23 2/6 1 3/6 3/8 
Gy 3021 5/28 5/21 2/6 1 5/6 5/24 
Tis 2013 3/28 | 3/23 2/6 1 3/6 3/8 
Tis 2031 5/28 5/21 2/6 1 5/6 5/24 
Lay 3012 4/28 4/22 2/6 1 4/6 1/3 
RO 1032 4/28 4/22 2/6 1 4/6 1/3 
În tabela A.12 sînt date răspunsurile sistemului pentru stra- 


tegiile din tabela A.11. 


Functia | 


Tabela A. 12 


Tig 


Ta Tiz Tig 


Tiz 
Tg 


Te Tir Tig 


Tio 


Răspunsul sistemului 


Tis 


15 


T3 Tig Tae 


T To Tiy Tig 


Ta Tg Lio Tig Tıp 


% Te Tu Tig 


Li Ta Ly Ty Lig x 
Ls Va Ty Ta To 


Tio V Vig 


1a Tis Vig Vy Vis 


- 
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Se observă că în acest caz strategia cu funcția as este cea mai 
eficientă. Strategiile cu funcțiile «c “PRN Gsm Sint echivalente cu o 
strategie cu funcţia liniară 

Y, 4, (2) d,(q), 
k=1 


care reprezintă un hiperplan. 


| ANEXA 2 


| METODE DE REZOLVARE A ECUAŢIEI FUNDAMENTALE 
| DIN ANALIZA CLASELOR LATENTE 


| Fie ecuaţia 


m 


P: = Y p(a/t) pt. 


| i=l] 


In cele ce urmează se dau două metode de rezolvare. 
Cazul m = (n+1)/2 
Considerăm matricele 


Poe SD pia p! 
AEO pie ph pe 


| Do- Pe P=- pe 
unde prin convenţie pi = 1, i = 1, eee, M, 


| Ip Pes pl 
Ie | se Sia ao a 


1 p 


15 Spa 
DSPs 
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pi Oise as. 
R= 0 În ze gate oa . 


è eas Cpe To e sa hee 


0 Oe eres oe De 


Fie P mtricea formată cu elementele Pin, È = 0, 1, 2, ....-, m—1, 
Î=0, m, m+], ...., 2 m—2, 


Poon Pown Porm Ty ees. ae SO ey Tes Br 

Pron Pin Pi, mln e BIO m—-2.n 
P=): . 

Paon Pann Pa, mtl, n GS USO) ata -a-n 


Pu=i1.0.% AD Da-i. m+1.n ee Pu -1, 3m —3,n 


Fie P* o matrice definită ca P unde Pim este înlocuit cu p,, 


Poo Pom Pomii > * > > Po.am—2 

Pro Pin Dim e e * + Dy ons 
P= 

Pro Pam Pa mii * © © > Pa am—e 


Daio Datta Deemer Sees S Pm-1. 2m —2 | 


Cu aceste notatii ecuaţia fundamentală devine 


P = B'DEC, 
TEES i DOs 
Fie ecuatia 
IP —aP*| =0, 
care se poate scrie 
| B'DEC — »B'DC| = 0 
Bau 


IB'ID\IE — MIC] = 0. 
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Considerind B, 0, D, ca fiind matrice nesingulare, atunci deoarece 
i E este o matrice diagonală, rădăcinile A, As., A, sînt elementele 
i pe diagonala matricei E, adică p,, pa eee Dn. Fiindcă |P—'P*| = 0, 
| matricea (P — i'P*) este singulară si deci este posibil să se găsească 


| un vector coloană ui! care nu are toate componentele nule gi care 
satisface condiția i 

| (P—2xP)ui =0, 

| adică 


Pui = NP*ui. 


Fie U = (w, 42,...,u") şi A o matrice diagonală cu elementele 4‘ 
pe diagonală. Atunci 


„PU=P*UA 


H Presupunem că A sînt ordonate în astfel ca A = E. Atunci o so- 
luție pentru U este U = 0-1, ceea ce se verifică uşor făcînd înlocuiri 


B' DECC"! = B' DOCO E. 


Cînd elementele. A! sînt ordonate, U este unic determinat cu excep- 
tia multiplicării la dreapta cu o matrice diagonală M. Astfel 
orice soluție U poate fi exprimată ca U = 071M. Invers, fiind dată 
o soluție U, C = MU“. Fiindcă elementele primei coloane ale ma- 
tricei C trebuie să fie egale cu unitatea, fiecare element diagonal 
al matricei M trebuie să fie reciprocul primului element al rindului 
corespunzător din U-1. În felul acesta vectorii proprii ai matricei P 
în termenii matricei P* determină matricea C. 
Considerăm vectorul linie (v')' care satisface condiția 


(v')' (P — NP*) = 0. 


Prin transpunere 


P'o = rips v', 


P' = 0' DEB P* = (DB, 


e 
e 
, 
ă 
e 


ae 
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Ca mai sus 


B=M,V-, 


unde V = (01, v3,.. -;0"), iar M, este o matrice diagonală in care 
fiecare element este reciprocul primului element in rindul cores- 


punzitor al Vo}. 


În final se obţine 
(B)1P 01 = (BB DCC-1 = D. 
Metoda are dezavantajul că folosește numai o parte a infor- 
matiei disponibile şi că matricele manipulate sînt nesimetrice. 
Cazul m=n 


Considerăm matricele 


pi pi e Pai 
1 pi ps 


1 pt pr... pry 


pen) 0 good (Î 


pe „0 = p(az/2) .... 0 


eRe el et ee het, RTSO 


0 0 IN plæjm) 
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Fie P matricea formată din elementele p,,,, i = 0, 1, PE cee 
a—1, j =0, 1, 2,..., m—1, 
Poon Poin Poon vem Po,n—1,n 
Pron Piin Pian ooa (ry she 
P = | Doo, Pain Pozn GO ca 


P2—1,0,n Pa SI Da —1,2,n să ee Pinta 


şi P* o matrice definită ca, P, unde Pun este înlocuit cu p,,, 


Po Por Poz +++ Pon- 
Pio Pu Piz ++. Pina 
P*=| poo lon «OR BOS e a e 


Ualio - OSG its a a o “S656 


Paio Pair Pri --- Pa—i,n-1 
În acest caz ecuația fundamentală poate fi scrisă în forma 
P = A DEA 
BVA DAR 
Rezolvarea ecuaţiei 
[P—AP*|=0 
se face ca în cazul precedent. 


Avantajul metodei constă, în faptul că matricele P şi P* sînt 
simetrice. 


Numim stratificator descriptorul » care este adăugat elemente- 
lor matricei P* pentru a forma matricea P. 

_ „Acest stratificator este ales astfel ca p+ pi pentru toți 
(i, J), i Æj. Pot fi multe stratificări care să satisfacă condiția de 
mai sus, însă datorită consistenței algebrice folosirea oricăreia din 
ele va conduce la același rezultat, adică la aceea, 
metrii p (v/i) și pt . 


şi mulțime de para- 


| ANEXA 3 


TEOREMA DE SEPARARE A MULTIMILOR FUZZY 


TEOREMĂ. În spațiul X n-dimensional fie G,, G, si G4, =4,NG, 
mulţimi fuzzy convexe mărginite cu 


t: = sup q, i 
= Sup 4, (v), 
M, = sup e, (2), 


atunci 1— M, este cel mai mare grad de separare al mulțimilor G, 
și G, ce poate fi realizat cu un hiperplan H in X. 


Demonstraţie. 
| Cazul M, = min (M, M,). Fie M, < M, încît M, =M, Atunci 
| datorită proprietăţii de mulţime mărginită există un hiperlan H 
astfel încît 
[Vaze H_] (ẹ, (2) < M,). 
EI Eo no 
Ele 0 OOG A 
Jit ck eons 
Astfel 
[Yx e H] (p, (2) < M,), 
deoarece ; 
. [Yve X] (ẹ, (£) = M, = M,). 


Ramine de arătat că nu există un M,< M, şi un hiperplan 
H’ astfel ca 


[Ys Ee HL] (p, (%) < M,), 
[Vo e H.] (p, (2) < M,). 


| 
2 Numim nucleu mulțimea {v| M, = M AS presupunem că nucleul 
in | grupării G, este in H',. Atunci afirmația 
i [Yv e H',] (Q, (2) < MW.) 


11 — 0, 403 
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nu este adevărată și deci 
[Vee H1] (p, (%) < M,), 
[VEH] (p, (2) < M,) 
În consecinţă 
[Yv e H}] (sup min (e, (2), p (2) < M,), 
[Vee HL) (sup min (¢,(%), ;(@)) < M,). 
În această situație 
[Yve X] (sup min (9,(2), (2) = M,), 
ceea ce contravine presupunerii că 
sup min (9(2), 9,(#)) = M, > M. 


Cazul M, < min (M, M,). Considerăm mulțimile convexe 


A, = {a] (2) > M}, 
A, = (| p(s) > M,). 


Aceste multimi sînt nevide si disjuncte, deoarece dacă nu este 
va fi un punct y incit ely) > UM, şi 9,(9) > M, şi deci (y) > M, 


ceea ce contrazice presupunerea că M, = sup o,(2) 
„Fiindcă A, şi A, sînt disjuncte, prin teorema, de 


~ [VaeH,] (9,(2) < M,), 
[Vaze H_](q,/(2) < M,). 


Astfel a fost arătat; că există un hiperplan A care realizează 1— M, 
separarea lui G, de &. Concluzia, că un grad de separare mai mare 
nu poate fi realizat „urmează din argumentul dat în primul caz. 
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INFORMATION STORAGE AND RETRIEVAL SYSTEMS 


BY 
C. V. NEGOITA 


This book deals with the computer processing of large in- 
formation files, and the design of automatic information systems, 
with special emphasis on search strategies and automatic classifi- 
cation methods. 

Chapter 1 presents the most significant results of the automatic 
indexing designed to replace a given document or search request by 
a vector of content identifiers (descriptors). 

Chapter 2 deals with a new abstract model of the retrieval 
process deriving a new theory of information retrieval based on 
real-valued functions theory and fuzzy sets theory. ; 

A search system is defined as a system (X, D, V, S, y) 
formed with four nonempty sets and a function defined on these 
sets. X is the set of document vectors, D is the set of descriptors, 
V is the set of descriptor weights, S is the set of descriptor conne- 
xions and y is the search function of the system. This function esta- 
blishes a mapping of the set X into the real line 


pi X>R. 


Thus, the answer of the search system is defined as the graph 
of the function 


{(w, y(#))| ve X}. 


Denoting P(D) the set of all subsets of D and u* the outer 
measure defined on P(D) since X C P(D) then if we X > z*(e) = 
=y(2) the function y is the restriction of u*. 

Similarly it is demonstrated that the function y is a step func- 
tion on P(X), 
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Considering n search query as a subset qo D the search 
strategy in defined as the couple o == (q, y). In this way for every 
atrategy oxista a soarch function 


Ya) = y(m, q). 


In this work the search strategies are classified following 
tho search function type: search strategies with nearness functions, 
search strategies with additive functions and search strategies with 
density functions, 

Considering the commanded answer 


X, = (ol y,(@) > 0} 


the search strategy effects a dichotomy i.e. divides the set X in 
two subsets X, and CX, by the hypersurfaces ¥,(@) = e. One 
measure of the effectiveness of a search strategy is the total 
number of dichotomies that its function could effect. The number 
of dichotomies that can be implemented by hypersurfaces depends 
only on the number of points we X and the number of parameters 
of the functions defining the hypersurfaces, Thus, the quadrie 
functions are much more powerful decision functions than are the 
linear functions i.e. the search strategy with density functions is 
the most powerful strategy. 

The retrieval system illustrated in chapter 2 is based completely 
on individual descriptors. No relations between descriptors are 
assumed and the indexing operation must be completely consistent 
in order to obtain effective retrieval action. Chapter 3 takes into 
consideration for retrieval purposes the statistical association between 
descriptors and documents and demonstrates that in this case the 
strategy is automatically optimized. 

Chapter 4 covers some procedures for file organization used 
to store the information items. Direct, inverted and multilist file 
organization are examined, together with the associative memory 
organization, 

The complexity of an information retrioval task depends 
largely on the physical location of the documents in the file. Thus it 
appears quite desirable to locate physically close in the memory 
structures documents that are likely to be wanted together. 

__, Chapter 5 is devoted to an examination of automatic -classi- 
fication methods, with special emphasis on matrix eigenvalue ana- 


aa ae 


ep D stiai 


—e 


Wee 


lysis, clump theory, 
theory. 

Chapter 5 introduces a new clu 
cept of fuzzy set. A cluster is defined as a subset G C X character- 
ized by a membership function Po: X +R which associates with 
each we X a real number in the interval [0,1]. With the values. 
?e(%) one can form the matrices M, = (9,(a,)) and M, =(9,,(x,)) 


where 9,,(%) = min (9,( 2), ~,(&)). Following the Separation theorem of 
fuzzy sets a cluster is defined by 


discriminant functions analysis and graph 


stering technique using the con- 


[Va eG] (9.(%) < min max Py(%)). 


Finall 
feedback. 


The book serves both as a monograph for the professional 
practitioner versed in general computer utilization, and as a book 
for students enrolled in applied mathematics. 


y chapter 5 presents the new experiments in relevance. 
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